Mistral Small 3

Mistral Small 3:Apache 2.0 许可,MMLU 81%,150 tokens/秒

研究
2025年1月30日Mistral AI 团队

今天,我们推出 Mistral Small 3,这是一款延迟优化型 240 亿参数模型,根据 Apache 2.0 许可发布。

Up and to the Left

Mistral Small 3 与 Llama 3.3 70B 或 Qwen 32B 等更大模型具有竞争力,并且是 GPT4o-mini 等不透明专有模型的出色开源替代品。Mistral Small 3 的性能与 Llama 3.3 70B instruct 不相上下,同时在相同硬件上速度快了 3 倍以上。

Mistral Small 3 是一款预训练且经过指令优化的模型,旨在满足 80% 的生成式 AI 任务需求——这些任务需要强大的语言能力和指令遵循性能,同时具有极低的延迟。

我们设计这款新模型是为了在适合本地部署的尺寸下达到饱和性能。特别是,Mistral Small 3 的层数远少于竞争模型,显著减少了每次前向传播的时间。在 MMLU 上达到 81% 以上的准确率和 150 tokens/秒的延迟下,Mistral Small 是其类别中目前效率最高的模型。

我们正在根据 Apache 2.0 许可发布预训练和指令微调的模型检查点。这些检查点可以作为加速进展的强大基础。请注意,Mistral Small 3 既未使用强化学习 (RL) 训练,也未使用合成数据训练,因此它在模型生产流程中比 Deepseek R1 等模型更靠前(Deepseek R1 是一项出色且互补的开源技术!)。它可以作为构建累积推理能力的优秀基础模型。我们期待看到开源社区如何采纳和定制它。

性能

人工评估

 
Mistral Small 3 Human Evals

我们与外部第三方供应商进行了一系列并排评估,评估基于超过 1000 个专有编码和通用提示。评估人员的任务是从 Mistral Small 3 与其他模型生成的匿名回复中选择他们偏爱的模型回复。我们意识到,在某些情况下,人工判断的基准与公开可用的基准存在显著差异,但我们在验证公平评估方面格外谨慎。我们相信上述基准是有效的。

指令性能

我们的指令微调模型在代码、数学、通用知识和指令遵循基准上与三倍于其大小的开源模型以及专有 GPT4o-mini 模型具有竞争力。

Mistral Instruct Knowledge
 
Mistral Instruct Code Math
 
Mistral Instruct If

所有基准的性能准确性均通过相同的内部评估流程获得——因此,数字可能与之前报告的性能(Qwen2.5-32B-InstructLlama-3.3-70B-InstructGemma-2-27B-IT)略有不同。基于评估者(如 Wildbench、Arena hard 和 MTBench)的评估基于 gpt-4o-2024-05-13。

预训练性能

Mistral Base Benchmarks
 
Mistral Base Mmlu Int

Mistral Small 3 是一款 240 亿参数模型,在其尺寸类别中提供最佳性能,并与 Llama 3.3 70B 等三倍大的模型相媲美。

何时使用 Mistral Small 3

在我们的客户和社区中,我们看到这种规模的预训练模型出现了几种独特的用例

  • 快速响应式对话助手:Mistral Small 3 在快速、准确响应至关重要的场景中表现出色。这包括在许多用户期望即时反馈和近实时交互的场景中的虚拟助手。
  • 低延迟函数调用:当作为自动化或代理工作流程的一部分使用时,Mistral Small 3 能够处理快速函数执行。
  • 微调以创建领域专家:Mistral Small 3 可以进行微调,使其专注于特定领域,创建高度准确的领域专家。这在法律咨询、医疗诊断和技术支持等领域特别有用,这些领域需要领域特定知识。
  • 本地推理:对于处理敏感或专有信息的爱好者和组织特别有利。经过量化后,Mistral Small 3 可以在单个 RTX 4090 或配备 32GB 内存的 Macbook 上私下运行。

我们的客户正在多个行业评估 Mistral Small 3,包括

  • 金融服务客户用于欺诈检测
  • 医疗保健提供商用于客户分诊
  • 机器人、汽车和制造公司用于设备上的命令与控制
  • 跨客户的通用用例包括虚拟客户服务、情感和反馈分析。

在您偏好的技术栈上使用 Mistral Small 3

Mistral Small 3 现已在 la Plateforme 上以 mistral-small-latest 或 mistral-small-2501 提供。查阅我们的 文档 ,了解如何使用我们的模型进行文本生成。

我们也很高兴能与 Hugging Face、Ollama、Kaggle、Together AI 和 Fireworks AI 合作,从今天起在他们的平台上提供该模型

展望未来

对于开源社区来说,这是令人兴奋的日子!Mistral Small 3 与 DeepSeek 最近发布的大型开源推理模型相辅相成,可以作为促使推理能力出现的强大基础模型。

除此之外,预计在未来几周内将推出推理能力得到提升的小型和大型 Mistral 模型。如果您有兴趣(我们正在招聘),请加入我们的旅程,或者今天就来改进 Mistral Small 3,超越我们!

Mistral 的开源模型

我们重申承诺将 Apache 2.0 许可用于我们的通用模型,并逐步淘汰 MRL 许可模型。与 Mistral Small 3 一样,模型权重将可供下载和本地部署,并可自由修改和在任何用途中使用。这些模型还将通过 la Plateforme 上的无服务器 API、我们的本地和 VPC 部署、定制和编排平台以及通过我们的推理和云合作伙伴提供。需要专门能力(提高速度和上下文、领域特定知识、代码补全等特定任务模型)的企业和开发者可以依赖补充我们社区贡献的额外商业模型。