6ヶ月前

マルチモーダル

マルチモーダル表現

マルチモーダル

Subash Khanal Srikumar Sastry Aayush Dhakal Nathan Jacobs

概要

音景マッピング（soundscape mapping）というタスクに焦点を当て、特定の地理的位置で聞き取られる可能性のある最も確からしい音を予測することを目的としています。本研究では、最近の最先端モデルを用いて、地理タグ付き音声データ、その音声のテキスト記述、およびその撮影位置の上空画像を、対照的事前学習（contrastive pre-training）によって符号化しています。その結果、3つのモダリティ（音声、テキスト、画像）が共有される埋め込み空間（shared embedding space）が構築され、テキストまたは音声によるクエリから、任意の地理領域に対する音景マップの構築が可能になります。SoundingEarthデータセットを用いた実験において、既存のSOTA（State-of-the-Art）手法と比較して、本手法が顕著に優れていることが確認され、画像から音声へのRecall@100が0.256から0.450まで向上しました。本研究のコードは、https://github.com/mvrl/geoclap にて公開されています。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

マルチモーダル

マルチモーダル表現

マルチモーダル

Subash Khanal Srikumar Sastry Aayush Dhakal Nathan Jacobs

概要

音景マッピング（soundscape mapping）というタスクに焦点を当て、特定の地理的位置で聞き取られる可能性のある最も確からしい音を予測することを目的としています。本研究では、最近の最先端モデルを用いて、地理タグ付き音声データ、その音声のテキスト記述、およびその撮影位置の上空画像を、対照的事前学習（contrastive pre-training）によって符号化しています。その結果、3つのモダリティ（音声、テキスト、画像）が共有される埋め込み空間（shared embedding space）が構築され、テキストまたは音声によるクエリから、任意の地理領域に対する音景マップの構築が可能になります。SoundingEarthデータセットを用いた実験において、既存のSOTA（State-of-the-Art）手法と比較して、本手法が顕著に優れていることが確認され、画像から音声へのRecall@100が0.256から0.450まで向上しました。本研究のコードは、https://github.com/mvrl/geoclap にて公開されています。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています