Pixtral Large

Pixtral 成长了。

研究
2024年11月18日Mistral AI 团队

Pixtral Large 简介

  • 前沿级多模态性能
  • 在 MathVista、DocVQA、VQAv2 上达到最先进水平
  • 在不损害文本性能的情况下扩展 Mistral Large 2
  • 123B 多模态解码器,1B 参数视觉编码器
  • 128K 上下文窗口:至少可容纳 30 张高分辨率图像
  • 使用
    • le Chat 上试用
    • 在我们的 API 中,模型名称为 pixtral-large-latest
    • 在此处下载

今天,我们发布 Pixtral Large,这是一个基于 Mistral Large 2 构建的 124B 开源多模态模型。Pixtral Large 是我们多模态系列的第二个模型,展示了前沿级别的图像理解能力。特别是,该模型能够理解文档、图表和自然图像,同时保持 Mistral Large 2 领先的纯文本理解能力。

该模型根据 Mistral Research License (MRL) 提供用于研究和教育用途;根据 Mistral Commercial License 提供用于商业用途的实验、测试和生产。

Benchmark summary

性能

我们通过一个通用的测试平台,在一系列标准多模态基准测试中,将 Pixtral Large 与前沿模型进行评估。在评估对视觉数据进行复杂数学推理的 MathVista 上,我们的模型达到了 69.4%,超越了所有其他模型。为了评估模型对复杂图表和文档的推理能力,我们使用 ChartQA 和 DocVQA 评估其性能,Pixtral Large 在这些测试中超越了 GPT-4o 和 Gemini-1.5 Pro。

Pixtral Large 在 MM-MT-Bench 上也展现了具有竞争力的能力,超越了所有 Claude-3.5 Sonnet (新版本)、Gemini-1.5 Pro 和 GPT-4o (最新版本)。MM-MT-Bench 是一个开源的、基于评委的评估,旨在反映多模态 LLM 的真实世界用例(详细信息请参阅Pixtral 12B 技术报告)。

Detailed benchmarks

最后,在LMSys Vision Leaderboard 上,Pixtral Large 是领先最多的开源模型,比最接近的竞争对手高出近 50 ELO 点。Pixtral Large 也超越了许多专有模型,例如 GPT-4o (24年8月版)。

Detailed benchmarks

定性样本

多语言 OCR 和推理...

German receipt

提示

我买了咖啡和香肠。我欠多少钱?请加上 18% 的小费。

回复

要计算您总共欠的金额,包括 18% 的小费,请按照以下步骤操作

  1. 计算咖啡和香肠的费用

    • 2x 拿铁玛奇朵:2 * 4.50 瑞士法郎 = 9.00 瑞士法郎
    • 1x 炸猪排:22.00 瑞士法郎
    • 咖啡和香肠总费用:9.00 瑞士法郎 + 22.00 瑞士法郎 = 31.00 瑞士法郎
  2. 计算 18% 的小费

    • 小费:31.00 瑞士法郎 * 0.18 = 5.58 瑞士法郎
  3. 将小费添加到总费用中

    • 总共欠的金额:31.00 瑞士法郎 + 5.58 瑞士法郎 = 36.58 瑞士法郎

所以,您总共欠 36.58 瑞士法郎。

图表理解...

Loss curve

提示

什么时候 'dark dragon' 的训练开始出现问题?

回复

'dark-dragon-50' 模型的训练损失在大约 10,000 步标记处开始表现出显著的不稳定性。此时损失值出现了明显的尖峰,不稳定性持续到大约 20,000 步标记处又出现了一个主要尖峰。这些尖峰表明,'dark-dragon-50' 模型的训练过程从大约 10,000 步标记处开始遇到问题。

更多内容...

Website screenshot

提示

哪些公司使用 Mistral AI 制造的模型?

回复

如图所示,使用 Mistral AI 制造的模型的公司是

  1. BNP Paribas
  2. Brave
  3. Cloudflare
  4. CMA CGM
  5. Front

还有一件事...

伴随 Pixtral Large 的发布,我们的最先进文本模型 Mistral Large 也获得了更新。该模型在我们的API 上以 pixtral-large-latest 名称提供,也可作为 Mistral Large 24.11 在 HuggingFace 上根据 Mistral Research License (MRL) 进行研究用途的自行部署,或通过 Mistral AI 获取商业许可用于商业用途。

这个最新模型在之前的 Mistral Large 24.07 的基础上进行了重大升级,在长上下文理解方面有显著改进,引入了新的系统提示,并提供了更准确的函数调用。该模型在 RAG 和代理工作流程方面能力强大,使其成为企业用例的合适选择,例如知识探索与共享、文档语义理解、任务自动化以及改善客户体验。

Mistral Large 24.11 将很快通过我们的云提供商合作伙伴提供,Google Cloud 和 Microsoft Azure 将在一周内开始提供。

人工智能的下一个篇章,由你书写。