Command Palette
Search for a command to run...
CoLA: 条件付きドロップアウトと言語駆動型の堅牢な双モーダル显著物体検出
CoLA: 条件付きドロップアウトと言語駆動型の堅牢な双モーダル显著物体検出
Shuang Hao; Chunlin Zhong; He Tang
概要
深度/熱情報は、従来のRGB画像を使用して注目物体を検出する際に有益です。しかし、双モーダル注目物体検出(SOD)モデルにおいて、ノイジー入力やモーダル欠損に対する堅牢性は重要であるにもかかわらず、ほとんど研究されていません。この問題に対処するために、我々はConditional Dropout および LAnguage-driven (CoLA) フレームワークを導入します。このフレームワークには2つの主要な構成要素があります。1) 言語駆動品質評価(LQA): 事前学習されたビジョン-言語モデルとプロンプト学習者を活用することで、LQAは追加の品質アノテーションを必要とせずに画像の貢献度を再調整します。この手法により、ノイジー入力の影響が効果的に軽減されます。2) 条件付きドロップアウト(CD): モーダル欠損のある状況でのモデルの適応性を強化し、完全なモーダル下での性能を維持するための学習方法です。CDは、モーダル欠損を条件として扱うプラグイン訓練スキームであり、さまざまな双モーダルSODモデルの全体的な堅牢性を強化します。広範な実験結果から、提案手法は両方の条件下で最新の双モーダルSODモデルよりも優れた性能を示していることが確認されました。本研究が受理され次第、ソースコードを公開いたします。