近日,加州大学圣地亚哥分校、Stability AI 和 Arm 的研究人员联合发布了一项名为“对抗性相对论-对比(Adversarial Relativistic-Contrastive,ARC)后训练”的新技术,为文本到音频生成领域带来了重大突破。该技术首次将不基于蒸馏的对抗性加速算法应用于扩散/流模型,显著提升了文本到音频系统的生成速度,使其能够以毫秒级的速度生成高质量音频,极大地拓展了其在创意应用中的实用性。论文地址:https://arxiv.org/pdf/2505.08175
一、技术背景与研究动机
传统的文本到音频系统虽然在生成质量上取得了显著进展,但在推理速度上存在严重瓶颈,通常需要数秒甚至数分钟才能生成几秒的音频。这种延迟对于大多数创意应用场景来说是不切实际的。现有的加速方法大多依赖于蒸馏技术,即通过教师模型指导学生模型以减少推理步骤。然而,蒸馏方法存在诸多弊端,如训练成本高昂、需要大量存储资源以及可能导致生成多样性降低等问题。因此,研究人员致力于探索非蒸馏的加速方法,以克服这些限制。

二、ARC 后训练技术详解
ARC 后训练技术的核心在于将相对论对抗性损失和对比性判别器目标相结合,对预训练的扩散/流模型进行优化。相对论对抗性损失通过比较生成样本与真实样本的相对真实性,促使生成器产生更接近真实音频的输出,从而减少所需的采样步骤。对比性判别器目标则通过最大化正确和错误音频-文本对之间的差异,增强模型对文本提示的遵循能力,避免了传统对抗性损失可能导致的文本跟随性差的问题。此外,研究人员还采用了乒乓采样技术来替代传统的常微分方程求解器,进一步提高了生成效率。
三、实验结果与性能表现
实验结果表明,ARC 后训练技术在加速文本到音频生成的同时,能够保持与现有最先进加速方法相当的音频质量,并显著提高了生成多样性。在 H100 GPU 上,该技术能够以约 75 毫秒的速度生成约 12 秒的 44.1kHz 立体声音频;在移动边缘设备上,生成时间约为 7 秒。这一速度是目前已知最快的文本到音频模型,比原始的 Stable Audio Open 模型快 100 倍。此外,研究人员还提出了一个新的条件多样性评分(CCDS)指标,用于自动评估生成音频的多样性,该指标与主观听觉测试结果高度一致。

四、创意应用与未来展望
ARC 后训练技术的快速生成能力使其在音乐制作、声音设计、虚拟现实等领域具有巨大的应用潜力。例如,它可以作为一种快速响应的“乐器”,为音乐创作者提供即时的声音反馈,激发创作灵感。此外,该技术还支持音频到音频的风格转换,无需额外训练即可实现从一种音频风格到另一种风格的转换。未来,研究人员计划进一步优化模型的内存和存储需求,以提高其在各种设备上的部署效率,并探索针对特定数据集的微调,以实现更精确的声音设计。