智谱GLM-5.1 刷新API速度记录
智谱AI在资本市场与技术领域同时迎来重要进展。5月22日,智谱(02513.HK)发布了面向企业客户的重磅新品——GLM-5.1高速版 API(GLM-5.1-highspeed)。该模型在保留旗舰大模型完整能力的同时,实现了高达400 tokens/s的输出速度,创造了当前全球大模型官方API速度的新纪录。
这一速度的提升意味着AI的应用场景将得到极大的拓展。用户能够以接近实时的速度获得AI的响应,无论是进行复杂的编程任务,还是期待即时性的交互体验。此前,模型处理长文本或进行多轮交互时常因速度瓶颈而显得效率低下,而400 tokens/s的性能表现,将极大地缩短任务完成时间,例如将原本需要数天的系统重构任务压缩至一杯咖啡的时间内即可完成。
“即问即答”体验,加速AI原生应用的涌现
在AI技术快速发展的当下,速度已成为衡量大模型实用性的关键指标,尤其对于需要快速响应的场景。GLM-5.1高速版的推出,为AI从“工具”向“实时伙伴”的转变提供了强有力的支撑,其颠覆性的速度体感体现在多个方面:
- AI编程(Coding Agent): 过去,智能体编程因多轮交互和长文本对齐而效率不高,现在借助高速版API,代码生成和重构将如同“10倍速”般流畅,用户输入即时获得反馈,显著提升开发效率。
- 实时交互与动态内容生成: 在游戏、虚拟现实等领域,极低延迟使得模型能够实时响应用户操作,动态生成场景内容,实现无缝衔接的沉浸式体验。
- 商业决策与数据分析: 对于需要快速处理海量数据的商业场景,高速版API能够实现多智能体并行应答,大幅提升量化分析和决策制定的效率。
- 自然流畅的语音交互: 在智能客服、AI陪练等应用中,极速响应大大缩短了语音识别到语音合成的延迟,用户体验无限接近于真实人类的对话流。
底层技术突破,实现“旗舰级性能”与“极致低延迟”并存
智谱GLM-5.1高速版实现400 tokens/s的速度纪录,得益于智谱GLM团队与TileRT 团队在系统级工程优化上的深度合作。此次优化并非单纯的速度提升,而是通过重构推理生态,实现了“旗舰级全尺寸能力”与“极致低延迟”的创新结合。其底层技术逻辑主要体现在三个层面:
- 推理引擎层: 针对GLM-5.1的模型架构特性,对核心推理路径和底层算子进行了彻底重写,最大化地提升了单张GPU的吞吐量和执行效率。
- 调度系统层: 引入了先进的动态批处理、请求合并技术以及KV缓存调度优化,有效解决了高并发场景下模型响应的延迟问题,确保了稳定输出。
- 基础设施层: 对推理集群的网络部署、链路拓扑和负载均衡进行了硬件级协同调优,确保算力在整个流水线中高效、无损地传递。
GLM-5.1高速版API支持200K超长上下文窗口,单次输出上限可达128K标记,这为处理复杂、长篇内容提供了坚实的基础。其速度上的突破,将有助于AI在多种对速度要求极高的场景中发挥更大作用,例如实时内容创作、高频交互式游戏、以及复杂的Agent协作系统等,从而推动AI技术的应用边界进一步拓展。
GLM-5.1高速版API现已通过智谱MaaS(大模型即服务)平台,向部分特定企业客户定向开放。此次发布的GLM-5.1高速版API,标志着大模型在速度和性能之间取得了关键性突破,它将助力企业在“智能”与“效率”之间找到新的平衡点,加速国内软件生态、自动化编程以及游戏产业向“Agentic”即“智能体化”的全面升级。