HyperAIHyperAI

Command Palette

Search for a command to run...

リモートセンシングのビジョン-言語モデルを強化してゼロショットシーン分類を実現する

Karim El Khoury Maxime Zanella Benoît Gérin Tiffanie Godelaine Benoît Macq Saïd Mahmoudi Christophe De Vleeschouwer Ismail Ben Ayed

概要

リモートセンシング向けのビジョン言語モデルは、広範な事前学習により有望な用途を示しています。しかし、これらのモデルがゼロショットシーン分類手法で従来通りに使用される際には、大規模な画像をパッチに分割し、それぞれに対して独立した予測を行う(すなわち、帰納的推論を行う)ため、重要なコンテキスト情報を無視することになり、その効果が制限されています。当研究では、この問題に対処するために、テキストプロンプトと画像エンコーダからのパッチ間の親和性関係に基づく初期予測を利用し、教師なしで且つ僅かな計算コストで推論能力を向上させる転帰的推論手法を採用しました。最先端のビジョン言語モデルを使用して10つのリモートセンシングデータセット上で実験を行った結果、帰納的なゼロショット分類に比べて有意な精度向上が確認されました。当研究のソースコードはGitHub上で公開されています: https://github.com/elkhouryk/RS-TransCLIP


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています