15日前
ゼロショットサウンドスケープマッピングのための三モーダル埋め込み学習
Subash Khanal, Srikumar Sastry, Aayush Dhakal, Nathan Jacobs

要約
音景マッピング(soundscape mapping)というタスクに焦点を当て、特定の地理的位置で聞き取られる可能性のある最も確からしい音を予測することを目的としています。本研究では、最近の最先端モデルを用いて、地理タグ付き音声データ、その音声のテキスト記述、およびその撮影位置の上空画像を、対照的事前学習(contrastive pre-training)によって符号化しています。その結果、3つのモダリティ(音声、テキスト、画像)が共有される埋め込み空間(shared embedding space)が構築され、テキストまたは音声によるクエリから、任意の地理領域に対する音景マップの構築が可能になります。SoundingEarthデータセットを用いた実験において、既存のSOTA(State-of-the-Art)手法と比較して、本手法が顕著に優れていることが確認され、画像から音声へのRecall@100が0.256から0.450まで向上しました。本研究のコードは、https://github.com/mvrl/geoclap にて公開されています。