4月20日深夜,月之暗面正式发布并开源Kimi K2.6模型。与前代K2.5相比,K2.6在编码能力、智能体集群能力及长程任务执行能力上实现了显著突破,尤其以"长程战力"为核心亮点——这意味着AI不仅能完成短时问答,更能支撑起跨越数小时乃至数天的复杂工作流,标志着国产大模型在真实场景落地方面迈出了关键一步。

一、13小时编码与5天自主运行:长程战力的硬核突破
K2.6的长程编码能力刷新了行业纪录:单次最长可连续编码13小时,期间完成超过4000行代码的编写与修改,覆盖Rust、Go、Python等主流编程语言,同时延伸至前端开发、运维自动化、性能优化等多元场景。这意味着AI编程助手从"辅助写几行代码"的工具,正式升级为能够承接完整项目开发的"虚拟工程师"。
在自主运行维度,K2.6同样展现了令人印象深刻的长时稳定性。月之暗面团队披露,其强化学习基础设施团队已基于K2.6 Agent实现连续5天不间断自主稳定运行,期间无需人工干预,全程独立完成复杂任务的规划、执行与迭代。这一成果充分验证了模型在长周期工作场景下的可靠性,也让"AI打工"从概念走向了可落地的现实。
二、Agent集群量级扩容:300个子Agent并行4000步
如果说K2.5首次引入了Agent集群概念,那么K2.6则将其推向了新的量级。K2.6的Agent集群架构完成全面扩容升级:支持调度最多300个子Agent并行完成4000个协作步骤,相较K2.5的100个子Agent和1500个步骤,效率提升达数倍之多。
这些子Agent并非预设规则的执行者,而是由K2.6根据任务需求现场动态分配角色与拆解子任务,无需人工预设流程。不同技能特长的Agent相互协作、组合各项能力,能够应对跨平台、多工具协同的复杂长流程任务。月之暗面创始人杨植麟将此比喻为"从单个专家进化成了一个专业团队"——而K2.6则让这个团队规模与协作深度同步跃升。
三、登顶权威评测,估值3个月翻4倍
在多项权威基准测试中,K2.6的表现同样亮眼。在博士级难度的"人类最后的考试(Humanity's Last Exam)"全工具测试中,K2.6以54.0%的得分登顶。在评估Agent深度检索能力的DeepSearchQA测评中,更以92.5%的高分超越GPT-5.4、Gemini 3.1 Pro及Claude Opus 4.6等头部闭源模型。
与此同时,K2.6的发布也搅动了资本市场的神经。市场知情人士透露,Kimi估值在短短3个月内已翻了4倍,达到180亿美元,新一轮10亿美元融资正在推进中,创下国内大模型连续融资的纪录。这一估值的飙升,既源于K2.6在技术上确立的差异化优势,也与个人订阅收入环比数倍增长直接相关——产品力与商业化正在形成正向循环。


