2 个月前

阅读、观看和尖叫!从文本和视频生成声音

Jeong, Yujin ; Kim, Yunji ; Chun, Sanghyuk ; Lee, Jiyoung
阅读、观看和尖叫!从文本和视频生成声音
摘要

尽管多模态生成模型取得了令人瞩目的进展,视频到音频的生成仍然存在性能有限的问题,并且在场景中优先合成特定对象的声音方面灵活性不足。相反,文本到音频的生成方法可以生成高质量的音频,但在确保全面的场景描绘和时间变化控制方面面临挑战。为了解决这些问题,我们提出了一种新的视频和文本到音频的生成方法,称为“我们的方法”(\ours),其中视频作为文本到音频生成模型的条件控制。特别是,我们的方法从视频中估计声音的结构信息(即能量),同时从用户提示中接收关键内容线索。我们采用了一个表现良好的文本到音频模型来整合视频控制,这使得使用大规模三元组配对(音频-视频-文本)数据训练多模态扩散模型更加高效。此外,通过分离音频的生成组件,该系统变得更加灵活,允许用户根据自己的偏好自由调整能量、周围环境和主要声源。实验结果表明,我们的方法在质量、可控性和训练效率方面具有优越性。代码和演示可在 https://naver-ai.github.io/rewas 获取。为了进一步优化译文的专业性和可读性,以下是经过微调后的版本:尽管多模态生成模型已取得显著进展,视频到音频的生成仍存在性能受限的问题,并且在场景中优先合成特定对象的声音方面灵活性不足。相比之下,文本到音频的生成方法能够产生高质量的音频,但在确保全面的场景描述和时间动态控制方面面临挑战。为此,我们提出了一种新的视频和文本到音频生成方法——“我们的方法”(\ours),其中视频作为条件控制输入用于指导文本到音频生成模型。具体而言,我们的方法从视频中提取声音的能量等结构信息,并结合用户提供的关键内容提示进行合成。我们利用一个高效的文本到音频模型来整合这一视频控制机制,从而在使用大规模三元组配对(音频-视频-文本)数据训练多模态扩散模型时显著提高了效率。此外,通过分离音频的不同生成组件,该系统变得更加灵活,允许用户根据个人需求自由调整声音的能量、环境背景以及主要声源。实验结果证明了我们的方法在音质、可控性和训练效率方面的优越性。相关代码和演示可在 https://naver-ai.github.io/rewas 获取。

阅读、观看和尖叫!从文本和视频生成声音 | 最新论文 | HyperAI超神经