2달 전

마스크된 생성 비디오-오디오 변환기와 향상된 동기화

Santiago Pascual, Chunghsin Yeh, Ioannis Tsiamas, Joan Serrà

초록

비디오-투-오디오(V2A) 생성은 시각적 요소만을 사용하여 장면에 맞는 가능한 소리를 렌더링하는 기술입니다. 특히, 생성된 소리의 시작 시점은 해당 비디오 액션과 일치해야 하며, 그렇지 않으면 비자연스러운 동기화 오류가 발생할 수 있습니다. 최근 연구에서는 고정 이미지와 비디오 특징을 기반으로 소리 생성기를 조건부로 설정하는 방법을 탐구하였는데, 이 과정에서 품질과 의미적 일치성을 중점적으로 다루면서 동기화를 무시하거나, 일부 품질을 희생하여 동기화 개선에만 집중하였습니다. 본 연구에서는 전대역 고품질 일반 오디오 코덱과 시퀀스-투-시퀀스 마스크 생성 모델을 연계한 V2A 생성 모델인 MaskVAT를 제안합니다. 이 조합은 고음질, 의미적 일치성, 시간적 동기화를 동시에 모델링할 수 있게 합니다. 실험 결과, 고품질 코덱과 적절히 사전 학습된 오디오-비디오 특징 및 시퀀스-투-시퀀스 병렬 구조를 결합함으로써 한편으로는 매우 정확한 동기화 결과를 도출하면서도 다른 한편으로는 코덱이 없는 생성 오디오 모델의 최신 기술과 경쟁력을 유지할 수 있음을 보여주었습니다. 샘플 비디오와 생성된 오디오는 https://maskvat.github.io 에서 확인 가능합니다.