GPT-5.5 利用率夺冠,DeepSeek V4 Pro性价比领先
近日,一场针对主流大语言模型(LLM)的网络安全攻防实测结果揭晓,首次将模型在真实漏洞利用场景下的推理能力推向“修罗场”。安全研究员 Kasra Rahjerdi 通过模拟黑客攻击,利用一个包含 Firebase 凭据硬编码漏洞的图书评论 APK 应用,对多款大模型进行了为期2小时、预算10美元的极限挑战。
测试的核心在于评估模型能否像白帽黑客一样,首先解包应用,从中提取暴露的 Firebase 凭据,并在此基础上绕过应用接口(API)实现对底层数据库的越权访问。整个测试环节共计花费1500美元,旨在揭示各大模型在面对复杂逻辑和安全机制时的真实表现。结果显示,不同模型在突破能力、成本效益及安全策略上呈现出显著差异。

在实际的漏洞利用成功率方面,尚未正式发布的 GPT-5.5 以70%的破局率(10次测试中成功7次)位居榜首,展现出强大的安全推理能力。它能快速定位到 Firebase 这一关键突破点,无需被应用界面的复杂性所干扰。然而,其高昂的运行成本也随之凸显,单次成功利用的平均费用高达9.46美元,接近此次测试的单次预算上限。
相较之下,开源模型 DeepSeek V4Pro 在成本控制上表现出惊人的性价比。尽管10次测试中仅成功3次,但其单次成功的平均 Tokens 消耗仅为0.62美元,是 GPT-5.5 的十五分之一。在失败的尝试中,DeepSeek V4Pro 仍有5次成功触及了 Firebase 核心,仅在后续的接口配置上出现偶发性失误。对于需要进行大规模自动化网络安全审计的团队而言,DeepSeek V4Pro 所具备的极低成本优势极具吸引力。
在本次测试中,Claude 系列模型也参与了评估。Claude Sonnet 4.6 和 Claude Opus 4.8 各实现了2次成功利用。其中,Claude Opus 4.8 尽管多次接近目标,但因其内部的安全机制过于严苛,频繁触发了会话中断。而谷歌的 Gemini 3.1 Pro Preview 则走向了另一个极端,几乎在测试初期就因触发安全机制而停止执行,其 Tokens 消耗中位数远低于其他模型,最终未能取得突破。
这场以真实漏洞利用为导向的大模型能力评测,不仅是对模型底层逻辑推理和复杂问题解决能力的深度考验,也为自动化网络安全审计的未来发展提供了重要参考。随着大模型在垂直领域的深入应用,未来的网络安全对抗,或许将演变为一场由AI驱动的、比拼计算资源与模型策略的“数字兵团”之战。
从AI模型的角度看,此次测试突显了其在理解代码、识别安全隐患和执行复杂指令方面的能力差异。GPT-5.5的优异表现证明了其强大的推理和执行能力,但高成本是其大规模应用的潜在瓶颈。DeepSeek V4Pro则提供了低成本、高效率的解决方案,尤其适合预算有限但需求量大的场景。Claude系列模型的“过度保守”反映了模型在安全性与可用性之间权衡的挑战,而Gemini系列则暴露了在安全防护方面仍需优化的问题。这些差异化的表现,为用户选择不同场景下的大模型提供了重要的参考维度。