
MiniMax Music 1.5 是MiniMax推出的新一代端到端AI音乐生成工具,可将单次生成音乐时长提升至4分钟,满足更长片段的创作需求。
1 主要功能
-
音乐时长提升:相较前代,单次生成音乐时长从数十秒提升至4分钟,可完整输出一段结构完整的音乐。
-
多样化音乐形式:支持纯音乐、清唱、伴奏+人声等多种形式,风格覆盖流行、电子、古典、氛围等。
-
参考音乐驱动:可上传参考音频,提取其风格、节奏、情绪,生成与之匹配的新曲。
-
文本提示词驱动:输入文字描述(情绪、场景、风格、配器),模型自动解析并生成对应音乐。
-
高音质输出:默认输出44.1 kHz、立体声,可直接用于短视频、广告、游戏、影视粗剪等场景。
-
API与网页双端:个人用户可即开即用,企业/开发者可调用RESTful API批量集成。
2 技术原理
-
端到端Transformer:采用自研音乐大模型,基于Transformer解码器结构,将符号与音频token混合建模,实现一次前向即完整生成。
-
多模态对齐:文本编码器与音频编码器共享潜空间,保证文字描述与音乐语义精准对齐。
-
MoE稀疏激活:引入混合专家网络,按风格、节奏、配器自动路由到不同专家子网,提高长序列生成效率。
-
线性注意力:改进传统二次注意力,使O(n²)降至O(n),在4分钟长度下仍可保持GPU显存可控。
-
两阶段训练:先在大规模符号音乐(MIDI)与音频对上进行预训练,再在高质量30秒-4分钟片段做微调,保证长时结构连贯性。
3 应用场景
-
短视频/直播:快速生成无版权背景乐,避免平台侵权风险。
-
广告与品牌:输入品牌关键词即可生成符合调性的Jingle或主题曲。
-
游戏研发:按关卡氛围、Boss情绪批量生成循环BGM,节省外包成本。
-
影视预告:粗剪阶段即时生成临时配乐,方便导演试听节奏点。
-
独立音乐人:用参考曲+文本描述获得灵感草稿,再进行二次编曲。
-
教育/播客:为在线课程、有声书自动生成片头片尾及过渡音乐。
4 使用方法
-
网页版:
-
进入海螺音乐官网,登录账号;
-
选择“创建音乐”,输入提示词或上传参考曲;
-
设定时长(30秒-4分钟)、BPM、风格标签;
-
点击生成,等待1-3分钟,可在线试听与下载WAV/MP3。
-
-
API版:
-
注册MiniMax开放平台,获取API Key;
-
按文档拼接JSON请求,包含prompt、reference_audio_url、duration等字段;
-
支持同步(轮询)与异步(回调)两种模式,返回音频URL与封面;
-
可对同一任务续写,最长累计8分钟。
-
5 适用人群
-
短视频创作者、MCN机构
-
独立音乐人、乐队、编曲师
-
游戏/影视/广告配乐师
-
播客、有声书、在线课程制作人
-
无音乐基础的普通爱好者
-
需要批量生成BGM的开发者与企业
6 优缺点介绍
-
优点
-
时长4分钟,结构完整,可直接商用粗剪;
-
支持参考曲+文本双驱动,控制精度高;
-
输出音质44.1 kHz,无需再次转码;
-
API接口友好,可批量、可续写,方便二次开发;
-
中文提示词理解好,对东方乐器与节奏型适配佳。
-
-
缺点
-
生成4分钟需约1-3分钟GPU时间,高峰时需排队;
-
对极端风格(先锋爵士、前卫金属)细节把控仍不如专业制作人;
-
目前仅支持立体声,不可直接生成5.1或杜比全景声;
-
免费额度有限,长时高频调用成本高于短视频平台曲库;
-
参考曲版权需用户自负,上传受版权保护的音频可能触发审核。
-
AI音乐生成、音乐创作工具、背景音乐制作、短视频配乐、游戏音频、广告Jingle、端到端音乐模型、MoE稀疏模型、多模态音乐AI、中文AI音乐平台
Tunee:一句话概括——“会聊天就能写歌的国产 AI 音乐工作站”。