
YuE是由香港科技大学与Multimodal Art Projection(多模态艺术投影)团队联合开发的开源AI音乐生成模型,能够将歌词转化为完整的歌曲,支持多种音乐风格和语言。
1. 主要功能
歌词转歌曲:输入歌词即可生成包含主唱和伴奏的完整歌曲。
多种音乐风格支持:涵盖流行、金属、爵士、嘻哈等多种风格。
高质量生成:通过多种技术优化,生成的歌曲连贯且高质量。
多语言支持:支持英语、中文、日语和韩语等多种语言。
长时间音乐创作:可生成长达5分钟的完整歌曲。
开源与可定制:代码和模型完全开源,用户可自由使用和修改。
情感和风格匹配:根据歌词的情感基调生成匹配的音乐风格。
跨模态应用:可与其他多模态模型结合,用于多媒体艺术创作。
2. 技术原理
语义增强音频分词器:更好地理解歌词语义信息,与音乐信号结合,生成符合歌词内容的音乐。
双分词技术:在不修改LLaMa解码器-only架构的情况下,实现音轨同步的声乐-乐器建模,确保节奏和旋律协调。
歌词链式思维生成:逐步生成整首歌曲,处理长上下文信息,保持整体结构连贯。
三阶段训练方案:基础模型训练、风格和情感对齐、偏好纠正,确保生成音乐符合人类审美。
3. 应用场景
音乐创作:为音乐人提供灵感,快速生成歌曲初稿。
广告与影视配乐:快速生成符合特定情感和风格的背景音乐。
多媒体艺术创作:与其他多模态模型结合,用于艺术项目。
4. 使用方法
克隆项目:
bash
复制
git clone https://github.com/multimodal-art-projection/YuE.git
cd YuE
初始化环境:
bash
复制
conda create -n yue python=3.8
conda activate yue
conda install pytorch torchvision torchaudio cudatoolkit=11.8 -c pytorch -c nvidia
pip install -r requirements.txt
pip install flash-attn --no-build-isolation
下载推理代码和分词器:
bash
复制
cd YuE/inference/
git clone https://huggingface.co/m-a-p/xcodec_mini_infer
运行推理:
bash
复制
python infer.py \
--stage1_model m-a-p/YuE-s1-7B-anneal-en-cot \
--stage2_model m-a-p/YuE-s2-1B-general \
--genre_txt genre.txt \
--lyrics_txt lyrics.txt \
--run_n_segments 2 \
--stage2_batch_size 4 \
--output_dir ./output \
--cuda_idx 0 \
--max_new_tokens 3000
5. 适用人群
音乐创作者:快速生成歌曲初稿,激发创作灵感。
广告与影视制作人员:快速生成符合项目需求的音乐。
多媒体艺术家:结合其他多模态模型进行艺术创作。
6. 优缺点介绍
优点:
高效生成:能够快速生成高质量的完整歌曲。
多语言支持:支持多种语言,适用范围广。
开源可定制:代码完全开源,用户可自由修改。
缺点:
依赖硬件:需要高性能GPU支持,对硬件要求较高。
生成限制:生成的音乐长度和风格可能受到一定限制。
分类标签推荐
音乐创作、AI生成、开源模型、多语言支持、多媒体应用
自由创作,简单易用的全平台编辑器,10余种业界领先的 AI 插件。无论是音频分 轨,扒谱转录,人声克隆,还是 ChatGPT 歌词写作,旋律创作,音效 生成等等…都可以这里一站完成。