
초록
우리는 비디오-오디오 생성에서 높은 시간적 일치성과 관련성을 달성한 첫 번째 자기 회귀 모델인 V-AURA를 소개합니다. V-AURA는 고 프레임율 시각적 특징 추출기와 다중 모달 오디오-시각적 특징 융합 전략을 사용하여 미세한 시각적 운동 이벤트를 포착하고 정확한 시간적 일치성을 보장합니다. 또한, 우리는 높은 오디오-시각적 관련성을 가진 벤치마크 데이터셋인 VisualSound를 제안합니다. VisualSound는 YouTube에서 추출된 자연 환경 샘플로 구성된 비디오 데이터셋인 VGGSound를 기반으로 합니다. 큐레이션 과정에서는 청각 이벤트가 시각적 이벤트와 일치하지 않는 샘플을 제거하였습니다. V-AURA는 시간적 일치성과 의미론적 관련성 면에서 현재 최신 모델들을 능가하면서 유사한 오디오 품질을 유지합니다. 코드, 샘플, VisualSound 및 모델은 https://v-aura.notion.site 에서 이용할 수 있습니다.