Au Large

Mistral Large 是我们的旗舰模型,拥有顶级的推理能力。它也在 Azure 上可用。

研究
2024年2月26日Mistral AI 团队

我们正在发布 Mistral Large,这是我们最新、最先进的语言模型。Mistral Large 可通过 la Plateforme 平台获取。我们还通过我们的首个分发合作伙伴 Azure 提供该模型。

Mistral Large,我们的新旗舰模型

Mistral Large 是我们全新的尖端文本生成模型。它具备顶级的推理能力,可用于处理复杂的多语言推理任务,包括文本理解、转换和代码生成。

Mistral Large 在常用基准测试中取得了优异成绩,使其成为全球通过 API 普遍可用的模型中排名第二的模型(仅次于 GPT-4)[有关基准测试的详细信息请参见下文]。

Detailed benchmarks

图 1:GPT-4、Mistral Large(预训练)、Claude 2、Gemini Pro 1.0、GPT 3.5 和 LLaMA 2 70B 在 MMLU(衡量大规模多任务语言理解)上的比较。

Mistral Large 带来新的能力和优势

  • 原生流畅支持英语、法语、西班牙语、德语和意大利语,并对语法和文化背景有细致的理解。

  • 32K tokens 上下文窗口能够从大型文档中精确回忆信息。

  • 精确的指令遵循能力使开发者能够设计自己的内容审核策略——我们使用它来设置 le Chat 的系统级内容审核。

  • 原生支持函数调用。这与 la Plateforme 上实现的受限输出模式一起,能够大规模地进行应用程序开发和技术栈现代化。

与微软合作在 Azure 上提供我们的模型

在 Mistral,我们的使命是让前沿人工智能无处不在。因此,我们今天宣布将我们的开放和商业模型引入 Azure。微软对我们模型的信任是我们前进道路上的一步!我们的模型现可通过以下途径获取:

  1. La Plateforme:安全托管在位于欧洲的 Mistral 基础设施上,此访问点使开发者能够使用我们全面的模型系列创建应用程序和服务。

  2. Azure:Mistral Large 可通过 Azure AI Studio 和 Azure Machine Learning 获取,提供与我们的 API 一样无缝的用户体验。测试版客户已 取得了显著成功

  3. 自主部署:我们的模型可以部署在您的环境中,适用于最敏感的用例,并提供模型权重访问;阅读关于此类部署的成功案例,并联系我们的团队获取更多详情。

Mistral Large 能力

我们将 Mistral Large 的性能与常用基准测试中的顶尖 LLM 模型进行了比较。

推理和知识

Mistral Large 展现出强大的推理能力。下图中,我们报告了预训练模型在标准基准测试中的表现。

Detailed benchmarks

图 2:市场上顶尖 LLM 模型在广泛的常识、推理和知识基准测试中的表现:MMLU(衡量大规模多任务语言理解)、HellaSwag(10-shot)、Wino Grande(5-shot)、Arc Challenge(5-shot)、Arc Challenge(25-shot)、TriviaQA(5-shot)和 TruthfulQA。

多语言能力

Mistral Large 原生支持多语言能力。它在法语、德语、西班牙语和意大利语的 HellaSwag、Arc Challenge 和 MMLU 基准测试中,表现显著优于 LLaMA 2 70B。

Detailed benchmarks

图 3:Mistral Large、Mixtral 8x7B 和 LLaMA 2 70B 在法语、德语、西班牙语和意大利语的 HellaSwag、Arc Challenge 和 MMLU 上的比较。

数学与编码

Mistral Large 在编码和数学任务中表现出色。下表中,我们报告了部分顶尖 LLM 模型在一系列流行基准测试中的表现,以评估其编码和数学性能。

Detailed benchmarks

图 4:市场上领先 LLM 模型在流行的编码和数学基准测试中的表现:HumanEval pass@1、MBPP pass@1、Math maj@4、GSM8K maj@8(8-shot)和 GSM8K maj@1(5 shot)。

全新的 Mistral Small 模型,针对低延迟工作负载进行优化

与 Mistral Large 同时,我们正在发布一款新的优化模型 Mistral Small,该模型针对延迟和成本进行了优化。Mistral Small 的性能优于 Mixtral 8x7B,且延迟更低,使其成为我们的开源模型产品和旗舰模型之间的精致中间解决方案。

Mistral Small 在 RAG-enablement 和函数调用方面受益于与 Mistral Large 相同的创新。

我们正在简化端点服务,提供以下内容:

  • 具有竞争性定价的开源模型端点。包括 open-mistral-7Bopen-mixtral-8x7b

  • 新的优化模型端点,mistral-small-2402mistral-large-2402。我们将保留 mistral-medium,今天暂不更新此模型。

我们的基准测试提供了性能/成本权衡的全面视图。

除了新的模型产品外,我们还支持组织管理多币种定价,并更新了 la Plateforme 上的服务层级。我们在降低所有端点延迟方面也取得了很大进展。

JSON 格式和函数调用

JSON 格式模式强制语言模型输出为有效的 JSON 格式。此功能使开发者能够更自然地与我们的模型交互,以结构化格式提取信息,方便在其后续流程中使用。

函数调用允许开发者将 Mistral 端点与他们自己的一组工具连接起来,从而实现与内部代码、API 或数据库的更复杂交互。您可以在我们的函数调用指南中了解更多信息。

函数调用和 JSON 格式仅在 mistral-small 和 mistral-large 上可用。我们很快将为所有端点添加格式化功能,并支持更细粒度的格式定义。

立即试用 Mistral Large 和 Mistral Small

Mistral Large 即日起在 la Plateforme 和 Azure 上可用。Mistral Large 也可通过我们的测试版助手演示器 le Chat 获取。一如既往,我们期待您的反馈!