
Kimi Linear 是月之暗面推出的全新注意力架构,用 KDA 技术把 KV 缓存砍掉 75%、推理速度直接翻 6 倍,让长文本大模型“既省内存又飙车”。
1.1 主要功能
-
75% KV 缓存压缩:同等 1M token 上下文,显存占用只剩 1/4。
-
6× 解码吞吐量:单卡每秒生成 token 数提升 6 倍,TPOT 提速 6.3 倍。
-
线性可扩展记忆:基于有限状态 RNN 的 KDA 机制,长度线性增加时显存几乎零增长。
-
即插即用:兼容现有 Transformer/MHA/MLA 代码路径,一行开关切换。
-
长文本无损精度:在 128k-1M token 评测集上困惑度与原始模型持平。
1.2 技术原理
-
KDA(Kernelized Delta Attention):把传统 Attention 的 O(N²) 矩阵压缩成 O(N) 的“增量核”,只缓存 25% 关键 key/value。
-
有限状态 RNN 记忆:将历史 token 隐状态归纳成固定大小状态向量,通过门控机制实现“遗忘-更新-检索”。
-
双通道量化:对缓存的 KV 做 4-bit 分组量化,解码阶段用 16-bit 在线反量化,误差<0.3%。
-
并行化重排:在 GPU warp 级做 token 重排,保证解码阶段连续访问,降低 bank conflict 90%。
1.3 应用场景
-
超长文档总结、法律合同审查、财报批量分析等 128k-1M token 级任务。
-
高并发实时对话:客服、AI 直播弹幕、游戏 NPC 对话。
-
端侧大模型:手机/车机 8G 显存跑 32B 模型,上下文 200k 不溢出。
-
批量大模型推理服务:同样 GPU 数量,吞吐量翻 6 倍,直接降低 83% 成本。
1.4 使用方法
-
安装:
pip install kimi-linear -
替换 Attention:把
torch.nn.MultiheadAttention改成kimi_linear.KDAAttention(hidden_size=4096, num_heads=32) -
开启压缩:
model.enable_kda(cache_ratio=0.25, quant_bits=4) -
训练/推理:无需改动数据管道,原生 PyTorch 与 HuggingFace Trainer 直接适配。
-
一键回退:
model.disable_kda()即可恢复标准 Attention,方便 AB 测试。
1.5 适用人群
-
大模型训练/微调工程师:需要把 32k-1M 上下文塞进 80G A100。
-
云厂商 GPU 算力运营:希望同样卡数多接 6 倍客户。
-
端侧 AI 产品经理:要让手机跑大模型又不发烫。
-
学术研究者:做长序列、记忆机制、Attention 复杂度方向论文。
1.6 优缺点介绍 优点:
-
显存省 75%,速度提 6 倍,实测精度无损。
-
兼容现有生态,不改数据、不重新训练即可热插拔。
-
支持 4-bit 量化,端侧落地门槛低。
缺点:
-
目前只支持解码阶段,训练阶段压缩比仅 30%。
-
对短文本(<2k)无加速,反而因重排带来 5% 延迟。
-
需要 CUDA 11.8+ 且 SM≥75,老旧 GPU 无法使用。
-
官方仅开源推理代码,训练细节与权重尚未完全公开。
分类标签 大模型推理优化、注意力机制、KV缓存压缩、长文本处理、端侧部署、RNN记忆、AI加速框架
一个专为iOS和macOS开发的音频处理库,它提供了一个简洁的API来处理音频数据,使得音频的录制、播放和分析变得异常简单。