
MiniMax Music 2.0 是一款用提示词就能让 AI 替你“一声千变”、三分钟写出一首完整歌曲的生成式音乐引擎。
1 主要功能
1.1 一声千变:输入提示词即可切换音色、唱法(美声、民谣、R&B、摇滚等)与情感(喜悦、悲伤、愤怒、空灵等)。
1.2 全曲生成:自动写出前奏、主歌、副歌、间奏、尾奏,结构完整,可指定 BPM、调式、拍号。
1.3 多轨独立控制:对鼓、贝斯、钢琴、吉他、弦乐等 20+ 乐器分轨生成,可单独导出 MIDI、WAV、Stem。
1.4 智能歌词押韵:内置 8000 万条中文语料,自动押韵、对仗,支持粤语/国语/英语混写。
1.5 人声合成:基于自研 HiFi-VC 技术,采样率 48 kHz,支持 3 秒极速复刻任意歌手音色。
1.6 云端协作:一键生成分享链接,他人可在线改词、改曲、改速度,版本自动分叉保存。
1.1 一声千变:输入提示词即可切换音色、唱法(美声、民谣、R&B、摇滚等)与情感(喜悦、悲伤、愤怒、空灵等)。
1.2 全曲生成:自动写出前奏、主歌、副歌、间奏、尾奏,结构完整,可指定 BPM、调式、拍号。
1.3 多轨独立控制:对鼓、贝斯、钢琴、吉他、弦乐等 20+ 乐器分轨生成,可单独导出 MIDI、WAV、Stem。
1.4 智能歌词押韵:内置 8000 万条中文语料,自动押韵、对仗,支持粤语/国语/英语混写。
1.5 人声合成:基于自研 HiFi-VC 技术,采样率 48 kHz,支持 3 秒极速复刻任意歌手音色。
1.6 云端协作:一键生成分享链接,他人可在线改词、改曲、改速度,版本自动分叉保存。
2 技术原理
2.1 分层扩散模型:旋律层、和声层、节奏层分别用 3 个 7B 参数扩散网络训练,降低模式坍塌。
2.2 提示词交叉注意力:将文本提示映射到 512 维语义向量,与音乐 latent 做交叉注意力,实现“一词一曲”。
2.3 人声风格token:把唱法、情感、音色编码成离散 token,拼接在旋律序列前,控制精度达 0.1 秒。
2.4 多轨掩码重建:随机掩码 30% 小节,让模型学会补全缺失乐器,保证多轨一致性。
2.5 强化学习微调:用 50 万首排行榜歌曲的“副歌记忆点”作为奖励函数,提升黄金 8 秒抓耳度。
2.1 分层扩散模型:旋律层、和声层、节奏层分别用 3 个 7B 参数扩散网络训练,降低模式坍塌。
2.2 提示词交叉注意力:将文本提示映射到 512 维语义向量,与音乐 latent 做交叉注意力,实现“一词一曲”。
2.3 人声风格token:把唱法、情感、音色编码成离散 token,拼接在旋律序列前,控制精度达 0.1 秒。
2.4 多轨掩码重建:随机掩码 30% 小节,让模型学会补全缺失乐器,保证多轨一致性。
2.5 强化学习微调:用 50 万首排行榜歌曲的“副歌记忆点”作为奖励函数,提升黄金 8 秒抓耳度。
3 应用场景
3.1 独立音乐人:Demo 日产量提高 10 倍,先听再决定是否实录。
3.2 短视频/广告:30 秒 BGM 批量生成,自动匹配脚本情绪曲线。
3.3 游戏/动漫:为角色定制主题曲,同一旋律自动切换“战斗/日常/悲伤”三套编曲。
3.4 教育:音乐课堂让学生即时听到自己写的旋律,降低创作门槛。
3.5 直播:主播输入弹幕关键词,AI 现场即兴演唱观众点的歌。
3.1 独立音乐人:Demo 日产量提高 10 倍,先听再决定是否实录。
3.2 短视频/广告:30 秒 BGM 批量生成,自动匹配脚本情绪曲线。
3.3 游戏/动漫:为角色定制主题曲,同一旋律自动切换“战斗/日常/悲伤”三套编曲。
3.4 教育:音乐课堂让学生即时听到自己写的旋律,降低创作门槛。
3.5 直播:主播输入弹幕关键词,AI 现场即兴演唱观众点的歌。
4 使用方法
4.1 注册:官网或微信小程序扫码,送 2000 点能量(≈20 首全曲)。
4.2 写提示:在“风格”栏输入“古风+女高音+惆怅”,在“歌词”栏输入四句诗,或在“旋律”栏哼唱 10 秒。
4.3 设置结构:选择“流行标准 AABA”或自定义小节数,可打开“高级”锁定某件乐器。
4.4 生成:点击“创造”约 30 秒完成,先听 30 秒预览,满意后花能量下载 48 kHz WAV。
4.5 二次编辑:进入“多轨视图”,可拖动 MIDI 块、换音色、升降调,再点“重新渲染”即可。
4.6 导出:支持 WAV、MP3、MIDI、Stem、分轨 PDF 总谱,商用需购买 199 元/年授权。
4.1 注册:官网或微信小程序扫码,送 2000 点能量(≈20 首全曲)。
4.2 写提示:在“风格”栏输入“古风+女高音+惆怅”,在“歌词”栏输入四句诗,或在“旋律”栏哼唱 10 秒。
4.3 设置结构:选择“流行标准 AABA”或自定义小节数,可打开“高级”锁定某件乐器。
4.4 生成:点击“创造”约 30 秒完成,先听 30 秒预览,满意后花能量下载 48 kHz WAV。
4.5 二次编辑:进入“多轨视图”,可拖动 MIDI 块、换音色、升降调,再点“重新渲染”即可。
4.6 导出:支持 WAV、MP3、MIDI、Stem、分轨 PDF 总谱,商用需购买 199 元/年授权。
5 适用人群
5.1 零乐理小白:只想快速得到一首“能发朋友圈”的生日歌。
5.2 词作者:不会编曲,但想听到自己歌词的 Demo。
5.3 独立乐队:把 AI 生成的前奏当灵感,再实录吉他。
5.4 音乐制作人:为客户出 5 版风格方案,先让甲方挑。
5.5 教育者与研究者:需要大量风格化 MIDI 数据集。
5.1 零乐理小白:只想快速得到一首“能发朋友圈”的生日歌。
5.2 词作者:不会编曲,但想听到自己歌词的 Demo。
5.3 独立乐队:把 AI 生成的前奏当灵感,再实录吉他。
5.4 音乐制作人:为客户出 5 版风格方案,先让甲方挑。
5.5 教育者与研究者:需要大量风格化 MIDI 数据集。
6 优缺点介绍
6.1 优点
6.1 优点
-
门槛低:提示词即可,无需安装 DAW。
-
速度快:30 秒出全曲,10 分钟出 20 版方案。
-
质量高:人声可商用,副歌记忆点优于多数同类型模型。
-
版权清晰:生成内容自带可查询哈希,平台提供电子授权书。
6.2 缺点 -
偶现“机械尾音”:极快 Rap 时人声会轻微电音感。
-
中文方言支持有限:粤语仅支持广州音,客家话暂未开放。
-
能量收费:高频商用需订阅,若导出 48 轨 Stem 消耗大。
-
网络依赖:离线版需 RTX 4090 24G 以上显存,普通笔记本跑不动。
AI音乐生成、音乐制作工具、人声合成、短视频配乐、教育辅助
一个致力于帮助音乐创作者快速生成和编辑音乐作品的人工智能平台。