ACE-Step:快速连贯的开源音乐生成模型
ACE-Step是开源音乐生成模型,结合扩散模型、DCAE和Transformer,快速生成高质量、连贯且歌词对齐的音乐,支持多种风格语言和高级控制,未来将推出RapMachine等。
ACE-Step:音乐生成新突破
项目简介
ACE-Step是一个开源的音乐生成基础模型,旨在克服现有方法的局限性,通过创新的架构设计实现卓越的性能。它结合了基于扩散的生成模型、DCAE和线性Transformer,并利用MERT和m-hubert进行语义表示对齐,从而实现了更快的推理速度、更好的音乐连贯性和歌词对齐。
核心优势
- 生成速度快:在A100 GPU上,20秒内合成长达4分钟的音乐,比LLM模型快15倍。
- 音乐连贯性好:在旋律、和声和节奏方面表现出色。
- 歌词对齐:准确地将歌词与音乐对齐。
- 控制性强:支持声音克隆、歌词编辑、混音和音轨生成等高级控制机制。
- 多种语言支持: 支持包括中英文在内的19种语言。
主要功能
- 多种风格和流派:支持所有主流音乐风格,可以使用短标签、描述性文本或用例场景进行描述。
- 乐器风格:生成各种乐器音乐,产生逼真的音轨。
- 声乐技巧:高质量地呈现各种声乐风格和技巧。
- 变奏生成:使用无训练的推理时优化技术生成音乐变奏。
- 重新绘制 (Repainting):通过在ODE过程中添加噪声和应用蒙版约束来修改特定音乐部分。
- 歌词编辑:使用flow-edit技术实现局部歌词修改,同时保留旋律、人声和伴奏。
应用方向 (LoRA 模型)
- Lyric2Vocal:直接从歌词生成人声样本,适用于歌曲创作。
- Text2Samples:从文本描述生成概念音乐制作样本,适用于快速创建乐器循环、音效和音乐元素。
即将推出
- RapMachine:专用于说唱生成的AI系统,具有AI说唱对战等功能。
- StemGen:生成单个乐器分轨,例如为长笛旋律创建钢琴伴奏或为主音吉他添加爵士鼓。
- Singing2Accompaniment:从单个人声轨道生成混合主音轨,为任何人声录音添加专业的伴奏。
硬件性能
设备 | RTF (27 steps) | 生成1分钟音频的时间 (27 steps) | RTF (60 steps) | 生成1分钟音频的时间 (60 steps) |
---|---|---|---|---|
NVIDIA RTX 4090 | 34.48 × | 1.74 秒 | 15.63 × | 3.84 秒 |
NVIDIA A100 | 27.27 × | 2.20 秒 | 12.27 × | 4.89 秒 |
NVIDIA RTX 3090 | 12.76 × | 4.70 秒 | 6.48 × | 9.26 秒 |
MacBook M2 Max | 2.27 × | 26.43 秒 | 1.03 × | 58.25 秒 |
RTF (Real-Time Factor) 数值越高,生成速度越快。
安装步骤
- 克隆代码仓库。
- 安装Python (3.10+) 和 Conda/venv。
- 创建并激活虚拟环境。
- 安装依赖项。
使用方法
基础用法
acestep --port 7865
高级用法
acestep --checkpoint_path /path/to/checkpoint --port 7865 --device_id 0 --share true --bf16 true
界面指南
- Text2Music Tab:根据标签、歌词等生成音乐。
- Retake Tab:生成音乐的变奏。
- Repainting Tab:选择性地重新生成音乐的特定部分。
- Edit Tab:通过更改标签或歌词来修改现有音乐。
- Extend Tab:在现有音乐的开头或结尾添加音乐。
许可证
Apache License 2.