华为发布AI推理技术UCM,推动行业革新

2025年8月12日,华为在“2025金融AI推理应用落地与发展论坛”上正式发布AI推理创新技术UCM(推理记忆数据管理器)。该技术以KV Cache为中心,融合多类型缓存加速算法工具,分级管理推理过程中的KV Cache记忆数据,可扩大推理上下文窗口,实现高吞吐、低时延的推理体验,并降低每Token推理成本。

一、技术创新与优势

UCM技术的核心在于其先进的KV Cache系统,通过层级化自适应的全局前缀缓存技术,可实现任意物理位置、任意输入组合上的KV前缀缓存重用,在多轮对话、RAG知识检索等场景中直接调用KV缓存数据,避免重复计算,使首Token时延最大降低90%。此外,UCM可根据记忆热度在HBM、DRAM、SSD等存储介质中自动分级缓存,同时融合多种稀疏注意力算法,实现存算深度协同,使长序列场景下TPS(每秒处理Token数)提升2至22倍。通过动态KV逐层卸载、位置编码扩展、Prefill稀疏等组合技术,UCM将超长序列Cache分层卸载至外置专业存储,利用算法突破模型和资源限制,实现10倍级推理上下文窗口扩展。华为发布ai推理技术ucm,推动行业革新

二、应用成果与合作

UCM技术已率先在中国银联“客户之声”“营销策划”“办公助手”三大业务场景中开展智慧金融AI推理加速应用试点,并取得显著成果。在中国银联“客户之声”业务场景下,借助UCM技术,大模型推理速度提升125倍,仅需10秒即可精准识别客户高频问题,促进服务质量提升。此次论坛上,华为还携手中国银联共同发布了双方在AI推理领域的最新应用成果。华为发布ai推理技术ucm,推动行业革新

三、开源计划与行业影响

华为计划于2025年9月正式开源UCM,届时将在魔擎社区首发,后续逐步贡献给业界主流推理引擎社区,并共享给业内所有Share Everything(共享架构)存储厂商和生态伙伴。这一开源计划将推动AI推理生态的繁荣发展,为行业提供更高效、低成本的解决方案,加速AI技术在更多领域的应用落地。
UCM技术的发布,不仅为AI推理领域带来了技术突破,也为行业提供了一个优化推理效率、降低成本的新思路,有望重塑国内AI推理行业的格局。

AD:精心整理了2000+好用的AI工具!点此获取

相关推荐

1 1

免费AI工具合集,点击进入

AI对话

玉米AI助手