百度Unlimited OCR 3B模型突破万星,长文档解析再创新高
百度近期推出并开源了名为 Unlimited OCR 的端到端光学字符识别(OCR)模型,该模型拥有 30 亿参数规模,特别针对书籍、论文等长文档的解析需求进行了优化。自发布以来,Unlimited OCR 在 GitHub 和 Hugging Face 等平台迅速成为焦点,上线短短五天内,GitHub 上的 Star 数量即突破了一万,显示出其强大的吸引力和行业关注度。
在技术实现层面,Unlimited OCR 在推理过程中仅激活约 5.7 亿参数,并创新性地引入了 Reference Sliding Window Attention(R-SWA)机制。这一机制有效规避了传统 OCR 模型“逐页解析再拼接”的局限,实现了对数十页文档进行一次性、连续性的解析处理。此外,R-SWA 机制将解码阶段的 KV Cache 控制在固定规模,从而避免了显存占用和计算成本随着输出长度的增加而急剧攀升的问题。
Unlimited OCR 在业界权威基准测试 OmniDocBench v1.6 中取得了 93.92% 的优异成绩,打破了此前的记录。在实际应用场景中,该模型的推理速度相比 DeepSeek OCR 提升了约 12.7%,而在处理高达 6000 Tokens 的长输出时,速度优势更是扩大到 35%。这一突破为海量文档的数字化处理以及大模型在长程记忆管理方面的应用提供了新的解决方案。
Unlimited OCR 的出现,标志着长文档 OCR 技术的一大进步。其高效的解析能力和对长文本的连续处理特性,不仅能够显著提升文档数字化工作的效率,更可能为大模型处理和理解海量信息带来新的可能性,尤其是在需要精确、连续文本提取的学术研究、法律文件处理以及历史文献数字化等领域具有广阔的应用前景。