2달 전
읽고, 보고, 비명을 지르세요! 텍스트와 동영상에서 소리 생성
Jeong, Yujin ; Kim, Yunji ; Chun, Sanghyuk ; Lee, Jiyoung

초록
다중 모드 생성 모델의 인상적인 발전에도 불구하고, 비디오-오디오 생성은 여전히 성능 제한과 장면 내 특정 객체에 대한 사운드 합성을 우선시하는 유연성 부족 문제를 겪고 있습니다. 반면에, 텍스트-오디오 생성 방법은 고품질의 오디오를 생성하지만, 전체적인 장면 묘사와 시간 변동 제어를 보장하는 데 어려움이 있습니다. 이러한 도전 과제를 해결하기 위해, 우리는 비디오와 텍스트를 이용해 오디오를 생성하는 새로운 방법인 \ours(우리의 방법)을 제안합니다. 특히, 우리의 방법은 비디오에서 사운드의 구조적 정보(즉, 에너지)를 추정하면서 사용자 프롬프트로부터 주요 내용 신호를 받습니다. 우리는 잘 수행되는 텍스트-오디오 생성 모델을 활용하여 비디오 제어를 강화하는데, 이는 대규모 트리플 쌍 데이터(오디오-비디오-텍스트)로 다중 모드 확산 모델을 훈련시키는 데 훨씬 더 효율적입니다. 또한, 오디오의 생성 구성 요소를 분리함으로써 사용자가 자신의 선호에 따라 에너지, 주변 환경 및 주요 사운드 소스를 자유롭게 조정할 수 있는 더욱 유연한 시스템이 됩니다. 실험 결과는 우리의 방법이 품질, 제어 가능성 및 훈련 효율성 면에서 우수함을 입증하고 있습니다. 코드와 데모는 https://naver-ai.github.io/rewas에서 확인할 수 있습니다.