YuE：开源AI音乐生成模型，将歌词转化为完整歌曲

AI开源项目音乐生成

香港科技大学与Multimodal Art Projection（多模态艺术投影）团队联合开发的开源AI音乐生成模型，能够将歌词转化为完整的歌曲，支持多种音乐风格和语言。

链接直达手机查看

YuE是由香港科技大学与Multimodal Art Projection（多模态艺术投影）团队联合开发的开源AI音乐生成模型，能够将歌词转化为完整的歌曲，支持多种音乐风格和语言。
1. 主要功能
歌词转歌曲：输入歌词即可生成包含主唱和伴奏的完整歌曲。
多种音乐风格支持：涵盖流行、金属、爵士、嘻哈等多种风格。
高质量生成：通过多种技术优化，生成的歌曲连贯且高质量。
多语言支持：支持英语、中文、日语和韩语等多种语言。
长时间音乐创作：可生成长达5分钟的完整歌曲。
开源与可定制：代码和模型完全开源，用户可自由使用和修改。
情感和风格匹配：根据歌词的情感基调生成匹配的音乐风格。
跨模态应用：可与其他多模态模型结合，用于多媒体艺术创作。
2. 技术原理
语义增强音频分词器：更好地理解歌词语义信息，与音乐信号结合，生成符合歌词内容的音乐。
双分词技术：在不修改LLaMa解码器-only架构的情况下，实现音轨同步的声乐-乐器建模，确保节奏和旋律协调。
歌词链式思维生成：逐步生成整首歌曲，处理长上下文信息，保持整体结构连贯。
三阶段训练方案：基础模型训练、风格和情感对齐、偏好纠正，确保生成音乐符合人类审美。
3. 应用场景
音乐创作：为音乐人提供灵感，快速生成歌曲初稿。
广告与影视配乐：快速生成符合特定情感和风格的背景音乐。
多媒体艺术创作：与其他多模态模型结合，用于艺术项目。
4. 使用方法
克隆项目：
bash
复制
git clone https://github.com/multimodal-art-projection/YuE.git
cd YuE
初始化环境：
bash
复制
conda create -n yue python=3.8
conda activate yue
conda install pytorch torchvision torchaudio cudatoolkit=11.8 -c pytorch -c nvidia
pip install -r requirements.txt
pip install flash-attn --no-build-isolation
下载推理代码和分词器：
bash
复制
cd YuE/inference/
git clone https://huggingface.co/m-a-p/xcodec_mini_infer
运行推理：
bash
复制
python infer.py \
--stage1_model m-a-p/YuE-s1-7B-anneal-en-cot \
--stage2_model m-a-p/YuE-s2-1B-general \
--genre_txt genre.txt \
--lyrics_txt lyrics.txt \
--run_n_segments 2 \
--stage2_batch_size 4 \
--output_dir ./output \
--cuda_idx 0 \
--max_new_tokens 3000
5. 适用人群
音乐创作者：快速生成歌曲初稿，激发创作灵感。
广告与影视制作人员：快速生成符合项目需求的音乐。
多媒体艺术家：结合其他多模态模型进行艺术创作。
6. 优缺点介绍
优点：
高效生成：能够快速生成高质量的完整歌曲。
多语言支持：支持多种语言，适用范围广。
开源可定制：代码完全开源，用户可自由修改。
缺点：
依赖硬件：需要高性能GPU支持，对硬件要求较高。
生成限制：生成的音乐长度和风格可能受到一定限制。
分类标签推荐
音乐创作、AI生成、开源模型、多语言支持、多媒体应用

相关导航

Step-DeepResearch：高性价比端到端深度研究代理模型

Step-DeepResearch 是阶跃星辰推出的一款高性价比、端到端深度研究代理模型，专为开放式研究场景中的自主信息探索和专业报告生成设计，能通过动态循环的推理、行动与反思，高效完成复杂研究任务。

Stable Audio Open Small：移动设备上的高效音频生成工具

Stable Audio Open Small 是一款由 Stability AI 与 Arm 合作推出的轻量级文本到音频生成模型，专为移动设备优化，能够在本地快速生成高质量音频。

宇树UnifoLM-VLA-0：为人形机器人注入“物理常识”的通用大脑

宇树开源的UnifoLM-VLA-0是一个专为通用人形机器人设计的视觉-语言-动作基础模型，它通过在真实机器人操作数据上进行预训练，使模型获得了对物理世界交互规律的基本理解，标志着机器人大脑从“图文理解”迈向具备“物理常识”的具身智能。

免责声明：本站为个人资讯、工具类学习博客，所发布的一切形式的内容，包括但不限于文字、链接、工具、图片、视频、软件等，仅限用于学习和研究目的，不得将上述内容用于商业或者非法用途，否则，一切后果请用户自负。本站信息来自网络，如有侵权请联系本站删除下架，您必须在下载后的24个小时之内，从您的电脑中彻底删除上述内容。访问和下载本站内容，说明您已同意上述条款。本站为非盈利性站点，本站不贩卖软件，所有内容不作为商业行为，点击、使用相关工具时请注意甄别，谨防上当受骗。咨询联系：yumiok88@gmail.com.