智谱GLM-5.1高速版发布:400 tokens/s刷新全球大模型速度上限

2026年5月22日,智谱AI宣布面向部分企业客户推出GLM-5.1高速版API“GLM-5.1-highspeed”,模型输出速度达到400 tokens/s,刷新当前全球大模型厂商API的速度上限。

智谱GLM-5.1高速版

一、速度突破:400 tokens/s意味着什么

在过去,高速模型几乎总是轻量级模型,用户不得不在响应速度和模型能力之间权衡。GLM-5.1高速版打破了这一行业惯例,首次在国产大模型中实现旗舰级能力与极致低延迟的结合。

400 tokens/s的速度意味着什么?以AI编程场景为例,一个Coding Agent任务通常需要数十轮模型调用,单轮延迟若慢上几秒,整体耗时可能拉长十几分钟。而使用GLM-5.1高速版,写代码仿佛开启了10倍速,模型能够一边理解工程上下文,一边持续生成代码与修改方案。

二、技术原理:三层系统级优化

实现这一速度的核心是TileRT高性能推理引擎,由智谱GLM团队与TileRT团队联合打造。其技术路径在推理引擎、调度系统与底层基础设施三个层面进行了系统级优化:

推理引擎层:针对GLM-5.1的架构特点,重写了核心推理路径,提升单卡吞吐能力。

调度系统层:通过动态批处理、请求合并和KV缓存调度优化,降低高并发场景下的尾延迟。

基础设施层:围绕推理集群部署、网络链路、负载均衡进行协同优化,确保400 TPS不是一个“峰值”数字,而是稳定可用的生产级能力。

TileRT的设计思路是彻底抛弃Runtime层的动态调度,在编译期(AOT)将整个计算图静态编排为一个常驻GPU的persistent Engine Kernel,从而消除冗余开销,逼近硬件物理极限。

三、适用场景与未来展望

GLM-5.1高速版适用于AI编程、实时交互、商业决策、实时语音等对响应延迟要求极高的场景。目前已在智谱MaaS平台面向部分企业客户开放。

随着AI Agent的普及,模型推理速度将成为关键竞争力。智谱此次突破不仅刷新了速度上限,更为实时交互类AI产品打开了想象空间——未来,AI助手或许能真正实现“即问即答”,像人与人的对话一样自然流畅。

AD:精心整理了2000+好用的AI工具!点此获取

相关推荐

1 1

免费AI工具合集,点击进入

AI对话

玉米AI助手