足够强大

今天,我们很高兴发布 Mistral Large 2,这是我们旗舰模型的全新一代。与前代模型相比,Mistral Large 2 在代码生成、数学和推理能力上有了显著提升。它还提供了更强的多语言支持和高级函数调用能力。

研究
2024年7月24日Mistral AI 团队
Mistral Large

这一最新一代模型继续突破成本效率、速度和性能的界限。Mistral Large 2 在 la Plateforme 上提供,并增加了新功能以促进构建创新的 AI 应用。

Mistral Large 2

Mistral Large 2 具有 128k 的上下文窗口,支持包括法语、德语、西班牙语、意大利语、葡萄牙语、阿拉伯语、印地语、俄语、中文、日语和韩语在内的数十种语言,以及包括 Python、Java、C、C++、JavaScript 和 Bash 在内的 80 多种编程语言。

Mistral Large 2 专为单节点推理设计,并考虑到了长上下文应用——其 1230 亿参数的规模使其能够在单节点上实现高吞吐量运行。我们根据 Mistral 研究许可证 (Mistral Research License) 发布 Mistral Large 2,该许可证允许用于研究和非商业用途的使用和修改。对于需要自行部署的 Mistral Large 2 商业用途,必须通过联系我们获得 Mistral 商业许可证 (Mistral Commercial License)。

整体性能

Mistral Large 2 在评估指标上的性能/服务成本方面树立了新的标杆。特别是,在 MMLU 上,预训练版本的准确率达到 84.0%,并在开放模型的性能/成本帕累托前沿上设定了新的点。

代码与推理

继我们在 Codestral 22BCodestral Mamba 上的经验之后,我们在很大比例的代码数据上训练了 Mistral Large 2。Mistral Large 2 显著优于之前的 Mistral Large,并与 GPT-4o、Claude 3 Opus 和 Llama 3 405B 等领先模型表现相当。

Detailed benchmarks

我们还投入了大量精力来增强模型的推理能力。训练期间的一个关键重点领域是尽量减少模型“幻觉”或生成听起来合理但事实上不正确或无关信息的情况。这通过对模型进行微调,使其在响应时更加谨慎和有辨识力来实现,确保它提供可靠且准确的输出。

此外,新的 Mistral Large 2 经过训练,能够在找不到解决方案或没有足够信息提供可靠答案时承认。这种对准确性的承诺体现在数学基准测试上改进的模型性能中,展示了其增强的推理和解决问题的能力。

Detailed benchmarks

代码生成基准测试的性能准确度(所有模型均通过相同的评估流程进行基准测试)

Detailed benchmarks

MultiPL-E 上的性能准确度(所有模型均通过相同的评估流程进行基准测试,但“论文”行除外)

Detailed benchmarks

GSM8K(8-shot)和 MATH(0-shot,无 CoT)生成基准测试的性能准确度(所有模型均通过相同的评估流程进行基准测试)

指令遵循与对齐

我们显著改进了 Mistral Large 2 的指令遵循和对话能力。新的 Mistral Large 2 在遵循精确指令和处理长多轮对话方面表现尤其出色。下面我们报告了在 MT-Bench、Wild Bench 和 Arena Hard 基准测试上的性能。

Detailed benchmarks

通用对齐基准测试的性能(所有模型均通过相同的评估流程进行基准测试)

在某些基准测试中,生成冗长的响应往往会提高分数。然而,在许多商业应用中,简洁性至关重要——短模型生成有助于更快的交互,并且推理成本更低。这就是为什么我们投入大量精力确保在可能的情况下,生成内容保持简洁明了。下图报告了不同模型在 MT Bench 基准测试问题上的平均生成长度。

MT Bench benchmarks
语言多样性

当今很大一部分商业用例涉及处理多语言文档。虽然大多数模型以英语为中心,但新的 Mistral Large 2 在很大比例的多语言数据上进行了训练。特别是,它在英语、法语、德语、西班牙语、意大利语、葡萄牙语、荷兰语、俄语、中文、日语、韩语、阿拉伯语和印地语方面表现出色。以下是 Mistral Large 2 在多语言 MMLU 基准测试上的性能结果,与之前的 Mistral Large、Llama 3.1 模型以及 Cohere 的 Command R+ 进行了比较。

Detailed benchmarks
Detailed benchmarks

多语言 MMLU 上的性能(基于基础预训练模型测量)

工具使用与函数调用

Mistral Large 2 具备增强的函数调用和检索技能,并经过训练能够熟练执行并行和顺序函数调用,使其能够成为复杂商业应用的强大引擎。

Detailed benchmarks
在 la Plateforme 上试用 Mistral Large 2

您现在可以通过 la Plateforme 使用 Mistral Large 2,模型名称为 mistral-large-2407,并在 le Chat 上进行测试。它以 24.07 版本提供(我们对所有模型采用的 YY.MM 版本命名系统),API 名称为 mistral-large-2407。指令模型的权重可用,并且也托管在 HuggingFace 上。

我们正在围绕两个通用模型(Mistral Nemo 和 Mistral Large)和两个专业模型(Codestral 和 Embed)整合 la Plateforme 上的产品。随着我们在 la Plateforme 上逐步弃用旧型号,所有 Apache 模型(Mistral 7B、Mixtral 8x7B 和 8x22B、Codestral Mamba、Mathstral)仍然可以通过我们的 SDK mistral-inference 和 mistral-finetune 进行部署和微调。

从今天开始,我们正在扩展 la Plateforme 上的微调功能:现在 Mistral Large、Mistral Nemo 和 Codestral 也可用此功能。

通过云服务提供商访问 Mistral 模型

我们很荣幸与领先的云服务提供商合作,将新的 Mistral Large 2 推向全球用户。特别是,今天我们正在扩大与 Google Cloud Platform 的合作,通过托管 API 将 Mistral AI 的模型引入 Vertex AI。除了 Azure AI Studio、Amazon Bedrock 和 IBM watsonx.ai 之外,Mistral AI 的最佳模型现在也可在 Vertex AI 上获得。

Mistral AI 模型可用性时间表
Detailed benchmarks