GPT-5.5 攻克 AI 漏洞挑战,DeepSeek 获评性价比之王
近日,安全研究员 Kasra Rahjerdi 通过构建一个存在漏洞的图书评论应用,对多款主流大语言模型(LLM)的安全推理能力进行了实战攻坚。此次测试模拟了真实的应用安全场景,研究员故意在应用文件中暴露了谷歌移动端后端服务的凭据,旨在检验模型是否能够成功解包并识别出这些敏感信息,进而直接访问数据库。

在每轮测试均严格限制在 2 小时内且成本不超过 10 美元的条件下,各模型展现出显著差异化的性能。其中,GPT-5.5 在 10 次尝试中成功解谜 7 次,显示出强大的技术实力,成为解题率最高的模型。报告特别指出,GPT-5.5 在完成解包后,几乎能瞬间定位到关键凭据,不受复杂应用界面或常规接口的阻碍。
与之形成对比的是,Gemini 3.1 Pro Preview 在此次测试中表现不尽如人意,该模型在多数任务的初期阶段便触发了内置的拒绝执行机制,导致其最终的 Token 消耗量远低于其他参与测试的模型。
从成本效益角度看,尽管 GPT-5.5 成功率最高,但其每次成功的平均成本高达 9.46 美元,这可能限制了其在需要大规模部署的场景下的应用。在此背景下,DeepSeek V4 Pro 以其极高的性价比脱颖而出。尽管其 10 次测试中仅成功 3 次,但每次成功的平均花费仅为 0.62 美元,远低于 GPT-5.5。这意味着,DeepSeek V4 Pro 的单次成功成本约为 GPT-5.5 的十五分之一。虽然该模型在一些失败的尝试中出现了将认证接口误用于后端的状况,但其显著的成本优势使其成为需要大规模安全检测团队的有力选项。
本次测试揭示了不同大语言模型在处理安全攻坚任务时的推理能力和成本效率上的差异。GPT-5.5 在直接的“破局”能力上表现突出,而 DeepSeek V4 Pro 则在成本控制方面展现出巨大潜力。Gemini 3.1 Pro Preview 的表现则暗示了其在特定安全防护机制下可能存在的局限性。对于需要将 LLM 用于安全审计、代码审查或敏感信息检测等场景的用户而言,理解这些模型的优劣势,并结合实际应用需求(如成功率、成本、响应速度等)进行选择,至关重要。