Mistral AI发布OCR4:多语言文字识别超GPT Gemini
Mistral AI 发布 OCR 4 模型,OCR 识别能力再升级
法国人工智能初创企业 Mistral AI 于本月 23 日正式发布其最新研发的光学字符识别(OCR)模型 OCR 4。这款小型聚焦模型在文档内容识别领域展现出卓越性能,能够处理跨越 10 个语族、多达 170 种语言。在权威基准测试 OmniDocBench 中,OCR 4 取得了 93.07 分的高分,其输出质量在人类评审中获得了高于 GPT 5.5 Pro、Gemini 3.1 Pro Preview 等竞争对手的认可。

OCR 4:小型高效,赋能多场景下游任务
OCR 4 的设计理念并非追求庞大的参数规模,而是专注于成为一个在文档识别方面极为高效的模型。除了准确识别文本内容,它还能提供文本的边框定位、区域分类以及置信度评分,这些功能使其能够广泛支持包括 RAG(检索增强生成)语义分块、智能体结构化基本单元、连接器结构化内容等多种下游工作负载,为复杂文档处理提供了坚实的基础。
成本效益显著,助力企业降本增效
在定价策略上,OCR 4 展现出其商业吸引力。其基础 API 调用费用为每千页 4 美元,而采用批处理方式则可享受 50% 的折扣,进一步降低了使用成本。同时,针对文档人工智能的定价为每千页 5 美元。这一定价策略有望帮助企业在提高文档处理效率的同时,有效控制运营开支。
作为欧洲人工智能领域备受瞩目的初创公司之一,Mistral AI 凭借其开源与闭源相结合的模型策略,在全球市场已占据一席之地。此次发布 OCR 4,标志着该公司将其技术能力从通用大语言模型领域,成功拓展至文档智能处理这一细分赛道。此举直接将 Mistral AI 置于与 OpenAI、Google 等行业巨头在基础工具层展开竞争的行列。
OCR 4 的推出,进一步巩固了 Mistral AI 在 AI 基础模型领域的竞争力。其强大的多语言支持能力和对下游任务的广泛兼容性,使其在文档自动化、信息提取、知识管理等应用场景中具有显著优势。对于需要处理海量非结构化文档数据的企业而言,OCR 4 提供了一种高效且经济的解决方案,有望加速其数字化转型进程。