2달 전
"Chirp"과 "Chat"을 구분하다: 자기 지도 시각적 사운드 및 언어 정착
Mark Hamilton, Andrew Zisserman, John R. Hershey, William T. Freeman

초록
우리는 DenseAV를 소개합니다. 이는 비디오를 통해 고해상도, 의미론적으로 유의미하며 오디오-비주얼이 정렬된 특징을 학습하는 새로운 듀얼 인코더 기반 아키텍처입니다. 우리는 DenseAV가 명시적인 위치 지정 감독 없이 단어의 "의미"와 소리의 "위치"를 발견할 수 있음을 보여줍니다. 또한, 이 시스템은 감독 없이 이러한 두 가지 연관성을 자동으로 발견하고 구분할 수 있음을 입증하였습니다. 우리는 DenseAV의 위치 지정 능력이 대조학습을 위해 밀집 이미지와 오디오 표현을 직접 비교하는 새로운 멀티헤드 특징 집합 연산자에서 비롯됨을 보여줍니다. 반면에, "전역" 오디오 및 비디오 표현을 학습하는 많은 다른 시스템들은 단어와 소리를 위치 지정할 수 없습니다. 마지막으로, 우리는 말과 소리로 유도되는 의미 분할 평가를 개선하기 위해 두 개의 새로운 데이터셋을 제공합니다. 이러한 데이터셋들과 다른 데이터셋들에서, 우리는 DenseAV가 말과 소리로 유도되는 의미 분할에서 이전 연구보다 크게 우수한 성능을 보임을 입증하였습니다. 또한, DenseAV는 이전 최신 기술인 ImageBind보다 절반 미만의 매개변수로 크로스 모달 검색에서 더 뛰어난 성능을 발휘합니다. 프로젝트 페이지: https://aka.ms/denseav{https://aka.ms/denseav}