Mistral OCR

推出全球顶尖的文档理解 API。

研究
2025 年 3 月 6 日Mistral AI 团队

纵观历史,信息抽象和检索的进步推动着人类的发展。从象形文字到纸莎草纸,从印刷术到数字化,每一次飞跃都让人类知识更容易获取和利用,从而促进了进一步的创新。 

今天,我们正处于下一次巨大飞跃的边缘——解锁所有数字化信息的集体智能。全球约 90% 的组织数据以文档形式存储,为了利用这一潜力,我们推出了 Mistral OCR

Mistral OCR 是一款光学字符识别 (OCR) API,它为文档理解设定了新标准。与其他模型不同,Mistral OCR 能够以前所未有的准确度和认知能力理解文档的每一个元素——媒体、文本、表格、方程式。它接受图像和 PDF 作为输入,并以有序的图文交错方式提取内容。

因此,Mistral OCR 是与 RAG 系统结合使用的理想模型,该系统以多模态文档(如演示文稿或复杂 PDF)作为输入。

我们已将 Mistral OCR 作为 Le Chat 上数百万用户的默认文档理解模型,并正在发布 API mistral-ocr-latest,价格为 1000 页 / 美元(批量推理时每美元可处理的页数大约翻倍)。该 API 今天已在我们的开发者套件 la Plateforme 上可用,并将很快在我们的云和推理合作伙伴以及本地部署中提供。

亮点

  1. 最先进的复杂文档理解能力

  2. 原生支持多语言和多模态

  3. 顶尖的性能基准

  4. 同类产品中最快

  5. 文档即提示,结构化输出

  6. 为处理高度敏感或机密信息的组织选择性提供本地部署选项

让我们逐一深入了解。 

最先进的复杂文档理解能力

Mistral OCR 在理解复杂文档元素方面表现出色,包括图文交错、数学表达式、表格以及 LaTeX 格式等高级布局。该模型能够更深入地理解带有图表、图形、方程式和插图的科学论文等丰富文档。 

以下是一个示例,展示了模型如何从给定的 PDF 中提取文本和图像到 markdown 文件中。您可以在此处访问 notebook。 

下面我们提供了 PDF 及其 OCR 输出的并排比较。将鼠标悬停在滑块上可在输入和输出之间切换。 

表格 + 插图
Tables + Figures
OCR 结果
OCR result
数学公式
Math
OCR 结果
OCR result
印地语
Hindi
OCR 结果
OCR result
文档
Document
OCR 结果
OCR result
阿拉伯语
Arabic
OCR 结果
OCR result

顶尖的性能基准

Mistral OCR 在严格的基准测试中持续超越其他领先的 OCR 模型。下文展示了其在文档分析多个方面的卓越准确性。我们从文档中提取嵌入式图像以及文本。下文比较的其他大型语言模型(LLM)不具备此功能。为了进行公平比较,我们在我们内部包含各种出版物论文和网页 PDF 的“仅文本”测试集上评估它们;下文

模型总体数学公式多语言扫描件表格
Google Document AI83.4280.2986.4292.7778.16
Azure OCR89.5285.7287.5294.6589.52
Gemini-1.5-Flash-00290.2389.1186.7694.8790.48
Gemini-1.5-Pro-00289.9288.4886.3396.1589.71
Gemini-2.0-Flash-00188.6984.1885.8095.1191.46
GPT-4o-2024-11-2089.7787.5586.0094.5891.70
Mistral OCR 250394.8994.2989.5598.9696.12

原生支持多语言

自 Mistral 成立以来,我们一直致力于用我们的模型服务全球,并因此努力在我们提供的所有产品中实现多语言能力。Mistral OCR 将这一点提升到了新水平,能够解析、理解和转录全球各大洲的数千种文字、字体和语言。这种多功能性对于处理来自不同语言背景文档的全球组织,以及服务小众市场的本土企业都至关重要。

模型生成中的模糊匹配
Google-Document-AI95.88
Gemini-2.0-Flash-00196.53
Azure OCR97.31
Mistral OCR 250399.02

 

按语言划分的基准测试

语言Azure OCRGoogle Doc AIGemini-2.0-Flash-001Mistral OCR 2503
ru97.3595.5696.5899.09
fr97.5096.3697.0699.20
hi96.4595.6594.9997.55
zh91.4090.8991.8597.11
pt97.9696.2497.2599.42
de98.3997.0997.1999.51
es98.5497.5297.7599.54
tr95.9193.8594.6697.00
uk97.8196.2496.7099.29
it98.3197.6997.6899.42
ro96.4595.1495.8898.79



同类产品中最快

作为同类模型中更轻量的模型,Mistral OCR 的性能比同类产品快得多,在单节点上每分钟可处理多达 2000 页。快速处理文档的能力确保了即使在高吞吐量环境中也能持续学习和改进。

文档即提示,结构化输出

Mistral OCR 还引入了将文档用作提示的功能,从而实现更强大和精确的指令。这项能力允许用户从文档中提取特定信息,并将其格式化为结构化输出,例如 JSON。用户可以将提取的输出链接到下游函数调用并构建智能代理。请参阅此示例 notebook。 

选择性提供本地部署

对于具有严格数据隐私要求的组织,Mistral OCR 提供本地部署选项。这确保敏感或机密信息在您自己的基础设施内保持安全,符合监管和安全标准。如果您想与我们一起探讨本地部署,请告知我们

用例

我们正在助力我们的测试版客户提升其组织知识水平,将他们庞大的文档库转化为行动和解决方案。我们的技术正在产生重大影响的一些关键用例包括

科学研究数字化:领先的研究机构一直在试验 Mistral OCR,将科学论文和期刊转化为人工智能可用的格式,使其可供下游智能引擎访问。这显著加快了协作并加速了科学工作流程。

保护历史和文化遗产:作为文化遗产守护者的组织和非营利机构一直在使用 Mistral OCR 对历史文档和文物进行数字化,确保其得到保护并让更广泛的受众能够访问。

优化客户服务:客户服务部门正在探索使用 Mistral OCR 将文档和手册转化为索引知识,从而缩短响应时间并提高客户满意度。

使设计、教育、法律等领域的文献实现人工智能可用:Mistral OCR 也一直在帮助公司将技术文献、工程图纸、讲义、演示文稿、监管文件等大量内容转化为可索引、可直接用于问答的格式,从而释放数百万文档中的智能并提高生产力。

立即体验

您可以在 le Chat 上免费试用 Mistral OCR 的功能。要试用 API,请前往 la Plateforme。我们非常期待您的反馈;预计该模型将在未来几周内不断改进。作为我们战略合作计划的一部分,我们还将选择性地提供本地部署。