2 个月前

阅读、观看和尖叫！从文本和视频生成声音

Jeong, Yujin ; Kim, Yunji ; Chun, Sanghyuk ; Lee, Jiyoung

摘要

尽管多模态生成模型取得了令人瞩目的进展，视频到音频的生成仍然存在性能有限的问题，并且在场景中优先合成特定对象的声音方面灵活性不足。相反，文本到音频的生成方法可以生成高质量的音频，但在确保全面的场景描绘和时间变化控制方面面临挑战。为了解决这些问题，我们提出了一种新的视频和文本到音频的生成方法，称为“我们的方法”（\ours），其中视频作为文本到音频生成模型的条件控制。特别是，我们的方法从视频中估计声音的结构信息（即能量），同时从用户提示中接收关键内容线索。我们采用了一个表现良好的文本到音频模型来整合视频控制，这使得使用大规模三元组配对（音频-视频-文本）数据训练多模态扩散模型更加高效。此外，通过分离音频的生成组件，该系统变得更加灵活，允许用户根据自己的偏好自由调整能量、周围环境和主要声源。实验结果表明，我们的方法在质量、可控性和训练效率方面具有优越性。代码和演示可在 https://naver-ai.github.io/rewas 获取。为了进一步优化译文的专业性和可读性，以下是经过微调后的版本：尽管多模态生成模型已取得显著进展，视频到音频的生成仍存在性能受限的问题，并且在场景中优先合成特定对象的声音方面灵活性不足。相比之下，文本到音频的生成方法能够产生高质量的音频，但在确保全面的场景描述和时间动态控制方面面临挑战。为此，我们提出了一种新的视频和文本到音频生成方法——“我们的方法”（\ours），其中视频作为条件控制输入用于指导文本到音频生成模型。具体而言，我们的方法从视频中提取声音的能量等结构信息，并结合用户提供的关键内容提示进行合成。我们利用一个高效的文本到音频模型来整合这一视频控制机制，从而在使用大规模三元组配对（音频-视频-文本）数据训练多模态扩散模型时显著提高了效率。此外，通过分离音频的不同生成组件，该系统变得更加灵活，允许用户根据个人需求自由调整声音的能量、环境背景以及主要声源。实验结果证明了我们的方法在音质、可控性和训练效率方面的优越性。相关代码和演示可在 https://naver-ai.github.io/rewas 获取。