Mistral NeMo
Mistral NeMo:我们全新的最佳小型模型。一个先进的 12B 模型,拥有 128k 上下文长度,与 NVIDIA 合作构建,并在 Apache 2.0 许可下发布。
今天,我们很高兴发布 Mistral NeMo,这是一个与 NVIDIA 合作构建的 12B 模型。Mistral NeMo 提供高达 128k token 的大型上下文窗口。其推理、世界知识和编码准确性在其尺寸类别中处于领先地位。由于它依赖于标准架构,Mistral NeMo 易于使用,可以作为任何使用 Mistral 7B 的系统中的直接替代品。
我们已在 Apache 2.0 许可下发布了预训练的基础检查点和指令微调的检查点,以促进研究人员和企业的采用。Mistral NeMo 在训练时考虑了量化感知,支持 FP8 推理而无任何性能损失。
下表比较了 Mistral NeMo 基础模型与两个近期开源预训练模型 Gemma 2 9B 和 Llama 3 8B 的准确性。
表1:Mistral NeMo 基础模型与 Gemma 2 9B 和 Llama 3 8B 的性能比较。
面向大众的多语言模型
该模型专为全球多语言应用而设计。它经过函数调用训练,具有大型上下文窗口,并且在英语、法语、德语、西班牙语、意大利语、葡萄牙语、中文、日语、韩语、阿拉伯语和印地语方面尤其强大。这是向着将前沿人工智能模型带到所有人手中、覆盖构成人类文化的所有语言迈出的新一步。
图1:Mistral NeMo 在多语言基准测试中的表现。
Tekken,一种更高效的分词器
Mistral NeMo 使用了一种新的分词器 Tekken,基于 Tiktoken,该分词器在 100 多种语言上进行了训练,比之前 Mistral 模型中使用的 SentencePiece 分词器能更有效地压缩自然语言文本和源代码。特别是,它在压缩源代码、中文、意大利语、法语、德语、西班牙语和俄语方面效率提高了约 30%。在压缩韩语和阿拉伯语方面,效率分别提高了 2 倍和 3 倍。与 Llama 3 分词器相比,Tekken 在压缩约 85% 的所有语言文本方面表现出更高的熟练度。
图2:Tekken 压缩率。
指令微调
Mistral NeMo 经历了高级微调和对齐阶段。与 Mistral 7B 相比,它在遵循精确指令、推理、处理多轮对话和生成代码方面表现更好。
表2:Mistral NeMo 指令微调模型的准确性。评估以 GPT4o 作为评判者,基于官方参考进行。
链接
基础模型和指令模型权重均托管在 HuggingFace 上。您现在可以使用 mistral-inference 试用 Mistral NeMo,并使用 mistral-finetune 对其进行调整。Mistral NeMo 在 la Plateforme 上以 open-mistral-nemo-2407 的名称提供。该模型也作为 NVIDIA NIM 推理微服务被打包在容器中,并可从 ai.nvidia.com 获取。