Mistral Small 3

Mistral Small 3：Apache 2.0 许可，MMLU 81%，150 tokens/秒

研究

2025年1月30日Mistral AI 团队

今天，我们推出 Mistral Small 3，这是一款延迟优化型 240 亿参数模型，根据 Apache 2.0 许可发布。

Mistral Small 3 与 Llama 3.3 70B 或 Qwen 32B 等更大模型具有竞争力，并且是 GPT4o-mini 等不透明专有模型的出色开源替代品。Mistral Small 3 的性能与 Llama 3.3 70B instruct 不相上下，同时在相同硬件上速度快了 3 倍以上。

Mistral Small 3 是一款预训练且经过指令优化的模型，旨在满足 80% 的生成式 AI 任务需求——这些任务需要强大的语言能力和指令遵循性能，同时具有极低的延迟。

我们设计这款新模型是为了在适合本地部署的尺寸下达到饱和性能。特别是，Mistral Small 3 的层数远少于竞争模型，显著减少了每次前向传播的时间。在 MMLU 上达到 81% 以上的准确率和 150 tokens/秒的延迟下，Mistral Small 是其类别中目前效率最高的模型。

我们正在根据 Apache 2.0 许可发布预训练和指令微调的模型检查点。这些检查点可以作为加速进展的强大基础。请注意，Mistral Small 3 既未使用强化学习 (RL) 训练，也未使用合成数据训练，因此它在模型生产流程中比 Deepseek R1 等模型更靠前（Deepseek R1 是一项出色且互补的开源技术！）。它可以作为构建累积推理能力的优秀基础模型。我们期待看到开源社区如何采纳和定制它。

性能

人工评估

我们与外部第三方供应商进行了一系列并排评估，评估基于超过 1000 个专有编码和通用提示。评估人员的任务是从 Mistral Small 3 与其他模型生成的匿名回复中选择他们偏爱的模型回复。我们意识到，在某些情况下，人工判断的基准与公开可用的基准存在显著差异，但我们在验证公平评估方面格外谨慎。我们相信上述基准是有效的。

指令性能

我们的指令微调模型在代码、数学、通用知识和指令遵循基准上与三倍于其大小的开源模型以及专有 GPT4o-mini 模型具有竞争力。

所有基准的性能准确性均通过相同的内部评估流程获得——因此，数字可能与之前报告的性能（Qwen2.5-32B-Instruct, Llama-3.3-70B-Instruct, Gemma-2-27B-IT）略有不同。基于评估者（如 Wildbench、Arena hard 和 MTBench）的评估基于 gpt-4o-2024-05-13。

预训练性能

Mistral Small 3 是一款 240 亿参数模型，在其尺寸类别中提供最佳性能，并与 Llama 3.3 70B 等三倍大的模型相媲美。

何时使用 Mistral Small 3

在我们的客户和社区中，我们看到这种规模的预训练模型出现了几种独特的用例

快速响应式对话助手：Mistral Small 3 在快速、准确响应至关重要的场景中表现出色。这包括在许多用户期望即时反馈和近实时交互的场景中的虚拟助手。
低延迟函数调用：当作为自动化或代理工作流程的一部分使用时，Mistral Small 3 能够处理快速函数执行。
微调以创建领域专家：Mistral Small 3 可以进行微调，使其专注于特定领域，创建高度准确的领域专家。这在法律咨询、医疗诊断和技术支持等领域特别有用，这些领域需要领域特定知识。
本地推理：对于处理敏感或专有信息的爱好者和组织特别有利。经过量化后，Mistral Small 3 可以在单个 RTX 4090 或配备 32GB 内存的 Macbook 上私下运行。

我们的客户正在多个行业评估 Mistral Small 3，包括

金融服务客户用于欺诈检测
医疗保健提供商用于客户分诊
机器人、汽车和制造公司用于设备上的命令与控制
跨客户的通用用例包括虚拟客户服务、情感和反馈分析。

在您偏好的技术栈上使用 Mistral Small 3

Mistral Small 3 现已在 la Plateforme 上以 mistral-small-latest 或 mistral-small-2501 提供。查阅我们的文档，了解如何使用我们的模型进行文本生成。

我们也很高兴能与 Hugging Face、Ollama、Kaggle、Together AI 和 Fireworks AI 合作，从今天起在他们的平台上提供该模型

Hugging Face (基础模型)
Ollama
Kaggle
Together AI
Fireworks AI
IBM Watson X
即将登陆 NVIDIA NIM, Amazon SageMaker, Groq, Databricks 和 Snowflake

展望未来

对于开源社区来说，这是令人兴奋的日子！Mistral Small 3 与 DeepSeek 最近发布的大型开源推理模型相辅相成，可以作为促使推理能力出现的强大基础模型。

除此之外，预计在未来几周内将推出推理能力得到提升的小型和大型 Mistral 模型。如果您有兴趣（我们正在招聘），请加入我们的旅程，或者今天就来改进 Mistral Small 3，超越我们！

Mistral 的开源模型

我们重申承诺将 Apache 2.0 许可用于我们的通用模型，并逐步淘汰 MRL 许可模型。与 Mistral Small 3 一样，模型权重将可供下载和本地部署，并可自由修改和在任何用途中使用。这些模型还将通过 la Plateforme 上的无服务器 API、我们的本地和 VPC 部署、定制和编排平台以及通过我们的推理和云合作伙伴提供。需要专门能力（提高速度和上下文、领域特定知识、代码补全等特定任务模型）的企业和开发者可以依赖补充我们社区贡献的额外商业模型。