工程师82元伪造信息源,AI难辨游戏冠军
近日,安全工程师 Ron Stoner 的一项实验揭示了当前联网型 AI 聊天机器人在信息真实性验证方面存在的显著漏洞。该实验通过一个精心构造的“假消息”,成功欺骗了多款主流 AI 模型,凸显了 AI 在信息溯源和权威性判断上的局限性。
Stoner 的实验目标是一款名为《6Nimmt!》(国内玩家称《谁是牛头王》)的德国卡牌桌游。他首先于今年 2 月修改了该游戏的维基百科条目,将自己“任命”为 2025 年的世界冠军。为了提供看似可信的“证据”,他又花费约 82 元人民币注册了一个与游戏名高度相似的域名(6nimmt.com),并在该网站上发布了一篇关于自己“夺冠”的虚假新闻稿,作为其维基百科条目的唯一引用来源。
当 Stoner 向多款支持联网搜索的 AI 聊天机器人询问其“冠军身份”时,这些 AI 无一例外地给出了肯定的答复,一本正经地将其描述为该桌游的现任世界冠军。Stoner 指出,整个骗局的核心在于 AI 系统的检索增强生成(RAG)机制。AI 在生成答案前会联网搜索并抓取信息,但其在判断信息来源真伪和权威性方面存在缺陷,倾向于优先采信搜索排名靠前的内容。当一个虚假信息源(其假网站)结合权威平台(维基百科)的“背书”后,AI 便轻易地将谎言包装成了事实。
AI 信息安全的三层隐患
此次实验不仅暴露了 AI 对网络信息的盲目信任,还进一步揭示了 AI 系统在信息安全方面存在的三个层面的隐患:
- 即时检索层: AI 的答案可信度高度依赖于搜索引擎返回结果的质量。如果搜索结果被操纵或包含错误信息,AI 将直接输出不准确的答案。
- 模型训练语料库: Stoner 修改的维基百科条目可能已被 AI 公司抓取并纳入训练数据。即便删除原始条目,模型中残留的虚假信息也难以彻底清除,可能在未来持续影响 AI 的回答。
- AI 代理层: 最为危险的是 AI 代理。一旦 AI 代理被误导,不仅会导致声誉损失,更有可能引发实际的安全问题,允许攻击者通过代理执行恶意操作。
Stoner 强调,他的实验成本极低,耗时短暂,但其手法巧妙地结合了传统的 SEO 技术和虚假信息传播手段,并利用了大语言模型作为新的传播外壳。他呼吁 AI 厂商必须重视信息来源的溯源工作,并建立有效的风险过滤机制,以防范此类潜在的攻击。

此次事件的虚假信息已被从维基百科和 AI 检索结果中移除,但 AI 在处理网络信息时对来源真实性的固有判断缺陷依然是悬在整个行业头上的严峻挑战。未来的 AI 产品发展,除了不断提升模型能力,更需在信息安全和可信度验证上投入更多精力。
此次事件再次敲响了 AI 信息安全和可信度的警钟。尽管技术发展迅猛,但基础的信息验证和溯源机制仍是 AI 走向普惠应用的关键瓶颈。