Pixtral Large

Pixtral 成长了。

研究

2024年11月18日Mistral AI 团队

Pixtral Large 简介

前沿级多模态性能
在 MathVista、DocVQA、VQAv2 上达到最先进水平
在不损害文本性能的情况下扩展 Mistral Large 2
123B 多模态解码器，1B 参数视觉编码器
128K 上下文窗口：至少可容纳 30 张高分辨率图像
使用
- 在 le Chat 上试用
- 在我们的 API 中，模型名称为 pixtral-large-latest
- 在此处下载

今天，我们发布 Pixtral Large，这是一个基于 Mistral Large 2 构建的 124B 开源多模态模型。Pixtral Large 是我们多模态系列的第二个模型，展示了前沿级别的图像理解能力。特别是，该模型能够理解文档、图表和自然图像，同时保持 Mistral Large 2 领先的纯文本理解能力。

该模型根据 Mistral Research License (MRL) 提供用于研究和教育用途；根据 Mistral Commercial License 提供用于商业用途的实验、测试和生产。

性能

我们通过一个通用的测试平台，在一系列标准多模态基准测试中，将 Pixtral Large 与前沿模型进行评估。在评估对视觉数据进行复杂数学推理的 MathVista 上，我们的模型达到了 69.4%，超越了所有其他模型。为了评估模型对复杂图表和文档的推理能力，我们使用 ChartQA 和 DocVQA 评估其性能，Pixtral Large 在这些测试中超越了 GPT-4o 和 Gemini-1.5 Pro。

Pixtral Large 在 MM-MT-Bench 上也展现了具有竞争力的能力，超越了所有 Claude-3.5 Sonnet (新版本)、Gemini-1.5 Pro 和 GPT-4o (最新版本)。MM-MT-Bench 是一个开源的、基于评委的评估，旨在反映多模态 LLM 的真实世界用例（详细信息请参阅Pixtral 12B 技术报告）。

最后，在LMSys Vision Leaderboard 上，Pixtral Large 是领先最多的开源模型，比最接近的竞争对手高出近 50 ELO 点。Pixtral Large 也超越了许多专有模型，例如 GPT-4o (24年8月版)。

定性样本

多语言 OCR 和推理...

提示

我买了咖啡和香肠。我欠多少钱？请加上 18% 的小费。

要计算您总共欠的金额，包括 18% 的小费，请按照以下步骤操作

计算咖啡和香肠的费用
- 2x 拿铁玛奇朵：2 * 4.50 瑞士法郎 = 9.00 瑞士法郎
- 1x 炸猪排：22.00 瑞士法郎
- 咖啡和香肠总费用：9.00 瑞士法郎 + 22.00 瑞士法郎 = 31.00 瑞士法郎
计算 18% 的小费
- 小费：31.00 瑞士法郎 * 0.18 = 5.58 瑞士法郎
将小费添加到总费用中
- 总共欠的金额：31.00 瑞士法郎 + 5.58 瑞士法郎 = 36.58 瑞士法郎

所以，您总共欠 36.58 瑞士法郎。

图表理解...

提示

什么时候 'dark dragon' 的训练开始出现问题？

'dark-dragon-50' 模型的训练损失在大约 10,000 步标记处开始表现出显著的不稳定性。此时损失值出现了明显的尖峰，不稳定性持续到大约 20,000 步标记处又出现了一个主要尖峰。这些尖峰表明，'dark-dragon-50' 模型的训练过程从大约 10,000 步标记处开始遇到问题。

还有一件事...

伴随 Pixtral Large 的发布，我们的最先进文本模型 Mistral Large 也获得了更新。该模型在我们的API 上以 pixtral-large-latest 名称提供，也可作为 Mistral Large 24.11 在 HuggingFace 上根据 Mistral Research License (MRL) 进行研究用途的自行部署，或通过 Mistral AI 获取商业许可用于商业用途。

这个最新模型在之前的 Mistral Large 24.07 的基础上进行了重大升级，在长上下文理解方面有显著改进，引入了新的系统提示，并提供了更准确的函数调用。该模型在 RAG 和代理工作流程方面能力强大，使其成为企业用例的合适选择，例如知识探索与共享、文档语义理解、任务自动化以及改善客户体验。

Mistral Large 24.11 将很快通过我们的云提供商合作伙伴提供，Google Cloud 和 Microsoft Azure 将在一周内开始提供。