2달 전

시각 객체와 구어 단어를 원시 감각 입력에서 공동으로 발견하기

David Harwath; Adrià Recasens; Dídac Surís; Galen Chuang; Antonio Torralba; James Glass

초록

본 논문에서는 구어 음성 캡션의 세그먼트와 그것이 참조하는 자연 이미지의 의미적으로 관련된 부분을 연관시키는 신경망 모델을 탐구합니다. 우리는 이러한 오디오-시각적 연관 위치가 이미지-오디오 검색 작업 수행을 위한 학습 과정에서 부산물로 형성되는 네트워크 내부 표현으로부터 나타난다는 것을 보여줍니다. 우리의 모델은 직접 이미지 픽셀과 음성 파형을 처리하며, 훈련 중에는 라벨, 분할, 또는 모달리티 간의 정렬 등의 전통적인 감독 없이 작동합니다. Places 205와 ADE20k 데이터셋을 사용한 분석을 통해 우리의 모델이 암묵적으로 의미적으로 결합된 객체 및 단어 검출기를 학습한다는 것을 입증합니다.