2ヶ月前

リモートセンシングのビジョン-言語モデルを強化してゼロショットシーン分類を実現する

Karim El Khoury; Maxime Zanella; Benoît Gérin; Tiffanie Godelaine; Benoît Macq; Saïd Mahmoudi; Christophe De Vleeschouwer; Ismail Ben Ayed
リモートセンシングのビジョン-言語モデルを強化してゼロショットシーン分類を実現する
要約

リモートセンシング向けのビジョン言語モデルは、広範な事前学習により有望な用途を示しています。しかし、これらのモデルがゼロショットシーン分類手法で従来通りに使用される際には、大規模な画像をパッチに分割し、それぞれに対して独立した予測を行う(すなわち、帰納的推論を行う)ため、重要なコンテキスト情報を無視することになり、その効果が制限されています。当研究では、この問題に対処するために、テキストプロンプトと画像エンコーダからのパッチ間の親和性関係に基づく初期予測を利用し、教師なしで且つ僅かな計算コストで推論能力を向上させる転帰的推論手法を採用しました。最先端のビジョン言語モデルを使用して10つのリモートセンシングデータセット上で実験を行った結果、帰納的なゼロショット分類に比べて有意な精度向上が確認されました。当研究のソースコードはGitHub上で公開されています: https://github.com/elkhouryk/RS-TransCLIP

リモートセンシングのビジョン-言語モデルを強化してゼロショットシーン分類を実現する | 最新論文 | HyperAI超神経