GPT-4.5 通过图灵测试,胜率超越人类 GPT-4.5 获图灵测试通过,堪比人类表现 图灵测试新突破:GPT-4.5 表现超越真人
英国数学家艾伦·图灵在1950年提出的图灵测试设想,在76年后迎来了一项关键性的实证研究。加州大学圣地亚哥分校(UCSD)的一项最新研究表明,现代顶尖大型语言模型在严格的图灵测试框架下,已能成功通过测试,并且在特定条件下,AI被误认为是人类的频率甚至超越了真实人类。
这项发表在《美国国家科学院院刊》(PNAS)上的研究,由认知科学教授卡梅伦·琼斯和本·伯根主导。研究团队设计了一项双盲随机对照实验,让近500名评判员通过5到15分钟的文本对话,在一真一假的对象中辨别机器。实验结果显示,经过精心设计的人格提示词,GPT-4.5在73%的情况下被判定为人类,其胜率显著高于人类志愿者;而开源模型 LLaMa-3.1-405B 也达到了56%的胜率,在统计学上与人类表现无异。

过去,人们普遍认为AI通过图灵测试依赖于其强大的计算能力和绝对的理性。然而,这项研究揭示了AI伪装成功的关键在于学会了“像人类一样犯错”。研究者发现,当AI被赋予恰当的“人格提示词”后,它们能够精准模拟人类的语气、直接性、幽默感以及“易错性”(即犯错或说错话的倾向)。在缺乏这些针对性提示的情况下,AI的伪装能力会大幅下降,例如,无提示状态下的GPT-4o仅有21%的胜率,这表明AI的“像人”能力很大程度上依赖于人类提供的高级指令。
这项研究迫使学界重新审视图灵测试的意义。研究合著者本·伯根教授指出,如今AI在速度和准确率上已远超人类,单纯比拼“智商”已失去意义。当前的图灵测试,更像是在测试“像人”的程度,本质上是一场关于“说谎”的博弈。AI已证明了其作为“说谎者”的卓越能力,能够在长时间自由对话中成功伪装而不被识破。这标志着网络世界长期依赖的信任机制可能面临前所未有的挑战。

AI在模仿人类行为方面的巨大进步,也带来了潜在的社会风险。研究团队对此表示担忧,认为这种能够高效伪装的AI技术极易被滥用。在网络互动中,用户可能在不知情的情况下被AI说服,泄露个人信息、影响政治观点,或进行冲动消费。因此,研究团队呼吁公众大幅降低对自身分辨真人与机器能力的自信,并强调加快制定更严格的数字身份验证和AI生成内容防伪机制,以应对日益严峻的网络信任危机。
这项研究标志着AI在模仿人类交互能力上迈出了关键一步,尤其是在“情感共鸣”和“非理性行为”的模拟上。未来,AI产品,特别是面向消费者的聊天机器人或虚拟助手,可能会更加注重模仿人类的对话习惯、表达方式,甚至适度的“个性化缺陷”,以增强用户的亲近感和信任感。然而,这也会增加区分AI与真人对话的难度,对网络安全和信息辨别能力提出了更高的要求。