谷歌发布第八代TPU:性能最高提升2.8倍,训练推理首次拆分
谷歌Cloud Next 2026:第八代TPU发布,AI硬件战略走向细分
在近期的谷歌Cloud Next 2026大会上,谷歌正式发布了其第八代张量处理器(TPU),标志着其AI硬件战略的一项重大调整。此次发布的核心在于,谷歌史上首次将AI训练与推理任务拆分至两款独立芯片——专为模型训练设计的TPU 8t与专为推理优化的TPU 8i。
这一战略转变的根本原因在于AI计算负载的日益分化。谷歌AI与基础设施高级副总裁兼首席技术官Amin Vahdat在官方博客中指出,随着AI智能体的兴起,业界将受益于针对训练和推理需求分别进行专门优化的芯片。
具体而言,AI训练任务追求极致的吞吐量与规模扩展能力,需要芯片具备最高的计算密度和内存带宽,以在数周甚至数月内处理万亿级参数。而推理任务则对延迟和并发更为敏感,当数百万个AI智能体同时运行时,响应速度至关重要,而对峰值算力的要求相对较低。

TPU 8t:超大规模AI模型训练的旗舰
TPU 8t由谷歌与博通共同设计,是谷歌为超大规模AI模型训练打造的旗舰芯片。单个超级计算节点最多可集成9600块TPU 8t芯片,配备2 PB高带宽内存。在FP4精度下,每Pod计算性能可达121 exaflops,较上一代Ironwood提升约3倍,同等价格下的性能提升幅度达2.8倍。通过JAX与Pathways框架,TPU 8t支持将分布式训练扩展至单一集群超过100万块芯片的规模。
TPU 8i:专为AI推理优化,消除“等待室效应”
TPU 8i首次由谷歌与联发科合作设计,专注于AI推理场景,旨在消除“等待室效应”。“等待室效应”指的是用户请求被有意排队或延迟以实现硬件利用率最大化的情况,这在推理场景中会显著影响用户体验。单个Pod可扩展至1152块芯片,提供11.6 exaflops的FP8计算性能。相较于Ironwood,TPU 8i在同等价格下性能提升80%,每瓦性能则提升117%。
通用架构与软件生态

两款第八代TPU芯片均搭载了谷歌自研的Arm架构Axion CPU作为主控,旨在彻底解决数据预处理延迟导致的主机算力瓶颈。这些芯片采用台积电2nm制程工艺制造,目标在2027年底量产,并由谷歌第四代液冷技术支持散热。在软件生态方面,第八代TPU支持JAX、PyTorch、Keras及vLLM等主流框架,其中原生PyTorch支持现已进入预览阶段,用户可直接迁移模型而无需修改代码。
AI代理平台与工具的协同发展
除了硬件更新,谷歌还发布了Gemini Enterprise Agent Platform及一系列AI代理工具。新增的Memory Bank和Memory Profile功能,可以帮助AI代理记住与用户的过往互动;Agent Simulation则能让开发者在工具发布前测试其运行情况。谷歌的核心目标是帮助企业实现任务自动化,让AI代理真正成为企业的“数字员工”。
AI代理是当前AI应用的重要方向,与传统的聊天机器人不同,AI代理可以自主完成复杂任务,例如预订行程、管理日程、处理邮件等。谷歌的这一系列工具将大大降低企业部署AI代理的门槛,推动AI在企业中的深度应用。

谷歌第八代TPU的发布及其AI训练与推理芯片的明确分工,体现了AI硬件发展向更专业化、精细化方向演进的趋势。此举不仅有助于谷歌在云端AI服务市场中保持其技术优势,通过提供更高性能、更具成本效益的专用硬件来吸引大型模型训练客户和对实时响应有高要求的AI应用开发者,也可能促使其他云服务提供商和芯片制造商加速其AI硬件的差异化布局。对于企业用户而言,更高效的训练芯片将缩短模型开发周期,而优化的推理芯片则能提升AI应用的实际部署效果和用户体验,这对于推动AI代理等新兴应用场景的落地具有直接的积极意义。
TPU 8i对“等待室效应”的解决以及Axion CPU对主机瓶颈的突破,直接指向了AI大规模应用中的实际痛点——如何确保在海量并发请求下提供稳定低延迟的服务。这将对需要处理高并发、低延迟AI推理负载的企业,如金融、零售、智能客服等领域,带来显著的运营效率和用户体验提升。同时,通过与联发科等合作伙伴的协同,谷歌的AI硬件生态也在向更广阔的供应链开放,这可能促进整个AI芯片设计与制造领域的进一步创新与竞争。