2달 전

시각적 객체의 소리 공유 분리

Gao, Ruohan ; Grauman, Kristen
시각적 객체의 소리 공유 분리
초록

비디오에서 객체의 소리를 학습하는 것은 도전적인 과제입니다. 이는 객체들이 단일 오디오 채널에서 자주 크게 겹치기 때문입니다. 현재 시각적으로 안내되는 오디오 소스 분리 방법은 인공적으로 혼합된 비디오 클립으로 훈련하여 이 문제를 우회하지만, 이는 훈련 데이터 수집에 불편한 제약을 가하고 "진정한" 혼합 소리의 속성을 학습하는 것을 방해할 수도 있습니다. 우리는 라벨이 없는 다중 소스 비디오에서 객체 수준의 소리를 학습할 수 있는 공동 분리 훈련 패러다임을 소개합니다. 우리의 새로운 훈련 목표는 유사한 모양을 가진 객체들의 분리된 오디오가 일관되게 식별될 수 있도록 요구하며, 동시에 각 소스 훈련 쌍에 대해 정확한 비디오 수준의 오디오 트랙을 재생산하도록 합니다. 우리의 접근법은 실제 테스트 비디오에서도 객체가 개별적으로 관찰되지 않은 경우에도 소리를 분리합니다. 우리는 MUSIC, AudioSet, 그리고 AV-Bench 데이터셋에서 시각적으로 안내되는 오디오 소스 분리와 오디오 노이즈 제거에 있어 최신 연구 결과를 얻었습니다.

시각적 객체의 소리 공유 분리 | 최신 연구 논문 | HyperAI초신경