
초록
비디오에서 객체의 소리를 학습하는 것은 도전적인 과제입니다. 이는 객체들이 단일 오디오 채널에서 자주 크게 겹치기 때문입니다. 현재 시각적으로 안내되는 오디오 소스 분리 방법은 인공적으로 혼합된 비디오 클립으로 훈련하여 이 문제를 우회하지만, 이는 훈련 데이터 수집에 불편한 제약을 가하고 "진정한" 혼합 소리의 속성을 학습하는 것을 방해할 수도 있습니다. 우리는 라벨이 없는 다중 소스 비디오에서 객체 수준의 소리를 학습할 수 있는 공동 분리 훈련 패러다임을 소개합니다. 우리의 새로운 훈련 목표는 유사한 모양을 가진 객체들의 분리된 오디오가 일관되게 식별될 수 있도록 요구하며, 동시에 각 소스 훈련 쌍에 대해 정확한 비디오 수준의 오디오 트랙을 재생산하도록 합니다. 우리의 접근법은 실제 테스트 비디오에서도 객체가 개별적으로 관찰되지 않은 경우에도 소리를 분리합니다. 우리는 MUSIC, AudioSet, 그리고 AV-Bench 데이터셋에서 시각적으로 안내되는 오디오 소스 분리와 오디오 노이즈 제거에 있어 최신 연구 결과를 얻었습니다.