Un Ministral, des Ministraux

推出全球最佳边缘模型。

研究
2024年10月16日Mistral AI 团队

推出全球最佳边缘模型

在革新了数百万人的独立前沿 AI 创新、Mistral 7B 发布一周年之际,我们很荣幸推出两款面向设备端计算和边缘用例的全新最先进模型。我们将它们命名为 les Ministraux:Ministral 3B 和 Ministral 8B。

这些模型在知识、常识、推理、函数调用以及 100 亿参数以下模型的效率方面树立了新的前沿标杆,可用于或针对各种用途进行微调,从协调智能代理工作流到创建专业任务工人。两种模型都支持高达 128k 的上下文长度(目前在 vLLM 上为 32k),并且 Ministral 8B 采用了特殊的交错滑动窗口注意力模式,以实现更快、内存效率更高的推理。

用例

我们最具创新力的客户和合作伙伴越来越多地要求对关键应用进行本地的、隐私优先的推理,例如设备端翻译、无需网络的智能助手、本地分析和自主机器人。Les Ministraux 的构建旨在为这些场景提供计算效率高且延迟低的解决方案。从独立爱好者到全球制造团队,les Ministraux 能满足各种各样的用例需求。

与 Mistral Large 等大型语言模型结合使用时,les Ministraux 也是多步智能代理工作流中函数调用的高效中间层。它们可以进行微调,以便在极低的延迟和成本下,跨多个上下文处理输入解析、任务路由以及根据用户意图调用 API。

基准测试

我们展示了 les Ministraux 在多项任务上的性能,它们始终优于同类模型。我们使用内部框架重新评估了所有模型,以进行公平比较。

预训练模型

Pretrain Table

表 1: Ministral 3B 和 8B 模型与 Gemma 2 2B、Llama 3.2 3B、Llama 3.1 8B 和 Mistral 7B 在多个类别上的比较

Pretrain With Gemma

图 1: Ministral 3B 和 8B 基础模型与 Gemma 2 2B、Llama 3.2 3B、Llama 3.1 8B 和 Mistral 7B 的比较

指令模型

Instruct Table With Gemma

表 2: Ministral 3B 和 8B 指令模型与 Gemma 2 2B、Llama 3.2 3B、Llama 3.1 8B、Gemma 2 9B 和 Mistral 7B 在不同评估类别上的比较。

3B Instruct model comparison graphInstruct Plot 3b No Qwen With Mistral Logo

图 2: 3B 系列指令模型(Gemma 2 2B、Llama 3.2 3B 和 Ministral 3B)的比较。该图展示了 Ministral 3B 相较于大得多的 Mistral 7B 所取得的改进。

Instruct Plot 8b With Mistral Logo

图 3: 8B 系列指令模型(Gemma 2 9B、Llama 3.1 8B、Mistral 7B 和 Ministral 8B)的比较。

可用性和定价

两款模型即日起可用。

模型API在 la Plateforme 上的定价许可证
Ministral 8Bministral-8b-latest$0.1 / 百万 tokens (输入和输出)Mistral 商业许可证
Mistral 研究许可证
Ministral 3Bministral-3b-latest$0.04 / 百万 tokens (输入和输出)Mistral 商业许可证

对于自行部署使用,请联系我们获取商业许可证。我们还将协助您对模型进行无损量化,以针对您的特定用例获得最佳性能。

Ministral 8B Instruct 的模型权重可用于研究用途。两款模型也将很快通过我们的云合作伙伴提供。

更多内容即将发布

在 Mistral AI,我们持续推动前沿模型的最新进展。Mistral 7B 发布仅仅一年,而我们今天最小的模型(Ministral 3B)在大多数基准测试中已经超越了它。我们迫不及待地想让您试用 les Ministraux 并向我们提供反馈。

More to come