Suno 慌了?腾讯联手清华发布 SongGeneration2,音素错误率低至 8.55%

2026 年 3 月 9 日,AI 音乐赛道迎来重磅消息。腾讯与清华大学人机语音交互实验室联合研发的音乐基础模型SongGeneration2正式发布,这款开源模型在歌词准确率、音质表现等核心指标上实现重大突破,音素错误率(PER)低至 8.55%,显著优于顶级商业模型Suno v5的 12.4%,标志着国产 AI 音乐技术迈入全球第一梯队。

一、技术突破:三大痛点一举攻克

过往 AI 音乐创作长期面临咬字不清旋律跑调音质塑料感三大行业痛点。SongGeneration2 采用创新的混合 LLM-扩散架构,语言模型担任"作曲大脑"统筹音乐结构,扩散模型负责高保真音频合成,两者分工协作实现音乐性与音质的完美平衡。

在歌词准确率方面,模型通过音素级对齐优化技术,将音素错误率压低至 8.55%,不仅超越 Suno v5 等商业模型,更接近人类歌手水平。音准优化算法有效攻克跑调难题,确保生成旋律符合音乐理论,彻底告别"AI 味"。

AI 音乐技术架构示意图

二、性能对标:开源模型媲美商业产品

测试数据显示,SongGeneration2 在 OverallQuality、Musicality、LyricAccuracy 等六大维度全面超越主流开源模型,生成质量与Suno v5、Udio 等顶级商业产品相当。尤其在中文歌曲生成上,模型针对华语音乐的咬字、韵律进行专门优化,表现优于国际竞品。

更值得关注的是,SongGeneration2完全开源免费,支持本地部署。这意味着个人创作者、小型工作室无需支付高昂订阅费用,即可享受商业级的 AI 音乐生成能力,大幅降低音乐创作门槛。

AI 音乐性能对比图

三、产业影响:AI 音乐从极客玩具走向全民创作

SongGeneration2 的发布对 AI 音乐产业具有深远意义。一方面,开源策略推动技术普惠,让普通用户也能体验 AI 辅助音乐创作的魅力;另一方面,本地部署能力保护创作隐私,适合对数据安全敏感的专业用户。

目前,模型已在 HuggingFace、GitCode 等平台开放下载,支持文本生成、音频提示等多种输入方式。无论是视频创作者需要背景音乐,还是独立音乐人寻找创作灵感,都可以利用 SongGeneration2 快速生成定制化音乐作品。

业内分析认为,随着腾讯、字节等大厂持续投入 AI 音乐赛道,2026 年或将成为AI 音乐产业化普及的元年,音乐创作正从专业领域走向大众化。

AI 音乐产业发展趋势

AD:精心整理了2000+好用的AI工具!点此获取

相关推荐

1 1

免费AI工具合集,点击进入

AI对话

玉米AI助手