视觉大模型古文字识别遇挑战:首个中国古文字OCR评测基准发布
近日,一项名为“Chronicles-OCR”的中国古文字感知评测基准正式发布,标志着人工智能在理解古老文本方面迈出了重要一步。该基准由腾讯混元大模型、SSV数字文化实验室与多所高校及故宫博物院联合推出,首次完整覆盖了汉字从古至今“七体之变”的演化轨迹。

为了全面评估现有AI模型的识别能力,Chronicles-OCR数据集精心构建,包含2800张高质量图像,并由领域专家进行多层级交叉标注。针对甲骨文、金文、篆书等早期字体,进行了细致的单字级别标注;而对于隶书、楷书、行书、草书等相对成熟的字体,则采用了保留原始阅读顺序的序列转写方式,力求真实反映模型在不同古文字体上的表现。
在基于Chronicles-OCR基准进行的一项关键评测中,包括GPT-5、Gemini 3.1 Pro、Claude Opus 4.7在内的28个主流多模态大语言模型接受了严格考验。评测任务被设计为层层递进,旨在分离模型的“视觉感知”与“语义推理”能力。然而,令人意外的是,在处理缺乏现代版式信息干扰的古早字体时,绝大多数主流大模型在端到端检测任务上表现不佳,细粒度识别的最高准确率仅达到27.1%。研究还发现,在这种情况下开启模型的推理模式,反而会加剧感知不确定性,进一步降低识别效果。
深入分析发现,当前的视觉大模型在进行字体分类时,往往更倾向于识别图像的载体纹理,而非细微的笔画风格差异。这一发现揭示了当前最顶尖AI模型在理解中国传统古文字时的深层局限性,它们尚不能真正“读懂”这些蕴含丰富历史信息的文字。汉字作为中华文明的载体,其演变过程每一笔画都记录着历史的连续性。Chronicles-OCR的推出,正视了这一技术挑战,为未来视觉大模型从简单的“识别文字”迈向更深层次的“解读历史”指明了明确的优化方向。
Chronicles-OCR评测基准的出现,直接揭示了当前AI视觉模型在古文字识别上的微观笔画识别短板。对于此类AI产品,其适用场景更多集中在历史文献研究、文物数字化保护以及文化教育领域。然而,其高昂的开发门槛和对专业领域知识的深度依赖,也意味着普通用户尚难以直接上手。目前的输入形式主要为图像,输出则为文字识别结果,距离真正意义上的“理解”仍有距离。
此次评测结果表明,在古文字识别领域,AI仍有巨大的进步空间,尤其是在捕捉细微笔画特征和理解历史文本的深层语义方面。