2026年5月22日,智谱AI宣布面向部分企业客户推出GLM-5.1高速版API“GLM-5.1-highspeed”,模型输出速度达到400 tokens/s,刷新当前全球大模型厂商API的速度上限。

一、速度突破:400 tokens/s意味着什么
在过去,高速模型几乎总是轻量级模型,用户不得不在响应速度和模型能力之间权衡。GLM-5.1高速版打破了这一行业惯例,首次在国产大模型中实现旗舰级能力与极致低延迟的结合。
400 tokens/s的速度意味着什么?以AI编程场景为例,一个Coding Agent任务通常需要数十轮模型调用,单轮延迟若慢上几秒,整体耗时可能拉长十几分钟。而使用GLM-5.1高速版,写代码仿佛开启了10倍速,模型能够一边理解工程上下文,一边持续生成代码与修改方案。
二、技术原理:三层系统级优化
实现这一速度的核心是TileRT高性能推理引擎,由智谱GLM团队与TileRT团队联合打造。其技术路径在推理引擎、调度系统与底层基础设施三个层面进行了系统级优化:
推理引擎层:针对GLM-5.1的架构特点,重写了核心推理路径,提升单卡吞吐能力。
调度系统层:通过动态批处理、请求合并和KV缓存调度优化,降低高并发场景下的尾延迟。
基础设施层:围绕推理集群部署、网络链路、负载均衡进行协同优化,确保400 TPS不是一个“峰值”数字,而是稳定可用的生产级能力。
TileRT的设计思路是彻底抛弃Runtime层的动态调度,在编译期(AOT)将整个计算图静态编排为一个常驻GPU的persistent Engine Kernel,从而消除冗余开销,逼近硬件物理极限。
三、适用场景与未来展望
GLM-5.1高速版适用于AI编程、实时交互、商业决策、实时语音等对响应延迟要求极高的场景。目前已在智谱MaaS平台面向部分企业客户开放。
随着AI Agent的普及,模型推理速度将成为关键竞争力。智谱此次突破不仅刷新了速度上限,更为实时交互类AI产品打开了想象空间——未来,AI助手或许能真正实现“即问即答”,像人与人的对话一样自然流畅。


