8ヶ月前

コンピュータビジョン

マルチモーダル表現

マルチモーダル

コンピュータビジョン

Nicolas Dufour David Picard Vicky Kalogeiton Loic Landrieu

概要

地球全体の視覚的な位置特定は、画像が地球上のどこで撮影されたかを予測します。画像の位置特定の精度は様々であるため、このタスクには本質的に大きな曖昧性が含まれています。しかし、既存のアプローチは確定的であり、この側面を見落としています。本論文では、伝統的な位置特定と現代的な生成モデルの間にあるギャップを埋めることを目指しています。我々は、拡散とリーマンフロー・マッチングに基づく最初の生成的位置特定アプローチを提案します。この方法では、ノイズ除去プロセスが直接地球表面で行われます。我々のモデルは、OpenStreetView-5M、YFCC-100M、iNat21 の3つの視覚的な位置特定ベンチマークで最先端の性能を達成しています。さらに、我々は確率的な視覚的位置特定という新たなタスクを導入します。このタスクでは、モデルが単一の点ではなくすべての可能な場所に対する確率分布を予測します。我々はこのタスクのために新しい評価指標とベースラインを導入し、拡散に基づくアプローチの優位性を示しています。コードとモデルは公開される予定です。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

コンピュータビジョン

マルチモーダル表現

マルチモーダル

コンピュータビジョン

Nicolas Dufour David Picard Vicky Kalogeiton Loic Landrieu

概要

地球全体の視覚的な位置特定は、画像が地球上のどこで撮影されたかを予測します。画像の位置特定の精度は様々であるため、このタスクには本質的に大きな曖昧性が含まれています。しかし、既存のアプローチは確定的であり、この側面を見落としています。本論文では、伝統的な位置特定と現代的な生成モデルの間にあるギャップを埋めることを目指しています。我々は、拡散とリーマンフロー・マッチングに基づく最初の生成的位置特定アプローチを提案します。この方法では、ノイズ除去プロセスが直接地球表面で行われます。我々のモデルは、OpenStreetView-5M、YFCC-100M、iNat21 の3つの視覚的な位置特定ベンチマークで最先端の性能を達成しています。さらに、我々は確率的な視覚的位置特定という新たなタスクを導入します。このタスクでは、モデルが単一の点ではなくすべての可能な場所に対する確率分布を予測します。我々はこのタスクのために新しい評価指標とベースラインを導入し、拡散に基づくアプローチの優位性を示しています。コードとモデルは公開される予定です。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています