智谱GLM-5.1高速版发布：400 tokens/s刷新全球大模型速度上限

2026年5月22日，智谱AI宣布面向部分企业客户推出GLM-5.1高速版API“GLM-5.1-highspeed”，模型输出速度达到400 tokens/s，刷新当前全球大模型厂商API的速度上限。

智谱GLM-5.1高速版

一、速度突破：400 tokens/s意味着什么

在过去，高速模型几乎总是轻量级模型，用户不得不在响应速度和模型能力之间权衡。GLM-5.1高速版打破了这一行业惯例，首次在国产大模型中实现旗舰级能力与极致低延迟的结合。

400 tokens/s的速度意味着什么？以AI编程场景为例，一个Coding Agent任务通常需要数十轮模型调用，单轮延迟若慢上几秒，整体耗时可能拉长十几分钟。而使用GLM-5.1高速版，写代码仿佛开启了10倍速，模型能够一边理解工程上下文，一边持续生成代码与修改方案。

实现这一速度的核心是TileRT高性能推理引擎，由智谱GLM团队与TileRT团队联合打造。其技术路径在推理引擎、调度系统与底层基础设施三个层面进行了系统级优化：

推理引擎层：针对GLM-5.1的架构特点，重写了核心推理路径，提升单卡吞吐能力。

调度系统层：通过动态批处理、请求合并和KV缓存调度优化，降低高并发场景下的尾延迟。

基础设施层：围绕推理集群部署、网络链路、负载均衡进行协同优化，确保400 TPS不是一个“峰值”数字，而是稳定可用的生产级能力。

TileRT的设计思路是彻底抛弃Runtime层的动态调度，在编译期（AOT）将整个计算图静态编排为一个常驻GPU的persistent Engine Kernel，从而消除冗余开销，逼近硬件物理极限。

GLM-5.1高速版适用于AI编程、实时交互、商业决策、实时语音等对响应延迟要求极高的场景。目前已在智谱MaaS平台面向部分企业客户开放。

随着AI Agent的普及，模型推理速度将成为关键竞争力。智谱此次突破不仅刷新了速度上限，更为实时交互类AI产品打开了想象空间——未来，AI助手或许能真正实现“即问即答”，像人与人的对话一样自然流畅。