音频版ControlNet来了！声音模仿新方法Sketch2Sound

Adobe和Northwestern University提出了一种生成音频的模型Sketch2Sound，能够根据一系列易于理解的、随时间变化的控制信号（如音量、亮度、音高）以及文本提示，生成高质量的声音。Sketch2Sound可以从模仿的声音（比如人声模仿或参考声音形状）中合成任意的声音。它可以基于任何文本到音频的潜在扩散变换器（DiT）进行实现，并且只需要40k步的微调和每个控制信号一个简单的线性层，这使得它比现有的像ControlNet这样的模型更轻量。

为了从类似草图的声音模仿中合成声音，Sketch2Sound在训练过程中对控制信号应用随机中值滤波，这使得Sketch2Sound可以使用灵活时间精度的控制信号进行提示。Sketch2Sound使得声音艺术家可以利用文本提示的语义灵活性，并结合声音手势或人声模仿的表现力和精确性来创作声音。

01 技术原理

—

Sketch2Sound 是一个把声音模仿转换为生成新声音的技术。它会从用户输入的模仿声音中提取三个关键控制信号：响度（音量大小）、频谱质心（简单来说就是声音的“亮度”）和音高概率（声音的高低变化）。这些信号会被编码后，加入到用来生成声音的核心模型中，一个基于 DiT（扩散模型）的文本到声音生成系统。这样，系统就能根据模仿的声音特点，生成出具有相似风格的新声音。

在生成声音时，使用较大的中值滤波器会让效果更像“草图”，声音质量也可能更高；而较小的滤波器会让生成的声音更精确，但如果模仿声音本身不够准确，可能会导致音质下降。这给声音艺术家提供了一个选择，可以在“草图感”和“精确度”之间找到适合自己的平衡点。