15일 전

제로샷 사운드스케이프 매핑을 위한 삼중 모달 임베딩 학습

Subash Khanal, Srikumar Sastry, Aayush Dhakal, Nathan Jacobs
제로샷 사운드스케이프 매핑을 위한 삼중 모달 임베딩 학습
초록

우리는 특정 지리적 위치에서 들릴 수 있는 가장 가능성이 높은 소리를 예측하는 소나르스케이프 매핑(Soundscape Mapping) 작업에 초점을 맞춥니다. 최근의 최첨단 모델을 활용하여 지오태깅된 오디오, 오디오의 텍스트 설명, 그리고 촬영 위치의 위성 이미지를 대비 학습(contrastive pre-training)을 통해 인코딩합니다. 그 결과, 세 가지 모달리티(오디오, 텍스트, 이미지)에 대해 공통된 임베딩 공간을 구축하게 되며, 이는 텍스트 또는 오디오 쿼리로부터 어떤 지리적 지역에 대한 소나르스케이프 지도를 생성할 수 있게 합니다. SoundingEarth 데이터셋을 활용한 실험에서, 기존의 최고 성능(SOTA) 모델 대비 우리 접근법이 크게 우수함을 확인하였으며, 이미지-오디오 Recall@100 지표에서 0.256에서 0.450으로 향상되었습니다. 코드는 https://github.com/mvrl/geoclap 에서 공개되어 있습니다.

제로샷 사운드스케이프 매핑을 위한 삼중 모달 임베딩 학습 | 최신 연구 논문 | HyperAI초신경