8ヶ月前

マルチモーダル

オブジェクト検出

セマンティックセグメンテーション

マルチモーダル

コンピュータビジョン

Shuang Hao; Chunlin Zhong; He Tang

概要

深度/熱情報は、従来のRGB画像を使用して注目物体を検出する際に有益です。しかし、双モーダル注目物体検出（SOD）モデルにおいて、ノイジー入力やモーダル欠損に対する堅牢性は重要であるにもかかわらず、ほとんど研究されていません。この問題に対処するために、我々はConditional Dropout および LAnguage-driven (CoLA) フレームワークを導入します。このフレームワークには2つの主要な構成要素があります。1) 言語駆動品質評価（LQA）: 事前学習されたビジョン-言語モデルとプロンプト学習者を活用することで、LQAは追加の品質アノテーションを必要とせずに画像の貢献度を再調整します。この手法により、ノイジー入力の影響が効果的に軽減されます。2) 条件付きドロップアウト（CD）: モーダル欠損のある状況でのモデルの適応性を強化し、完全なモーダル下での性能を維持するための学習方法です。CDは、モーダル欠損を条件として扱うプラグイン訓練スキームであり、さまざまな双モーダルSODモデルの全体的な堅牢性を強化します。広範な実験結果から、提案手法は両方の条件下で最新の双モーダルSODモデルよりも優れた性能を示していることが確認されました。本研究が受理され次第、ソースコードを公開いたします。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

マルチモーダル

オブジェクト検出

セマンティックセグメンテーション

マルチモーダル

コンピュータビジョン

Shuang Hao; Chunlin Zhong; He Tang

概要

深度/熱情報は、従来のRGB画像を使用して注目物体を検出する際に有益です。しかし、双モーダル注目物体検出（SOD）モデルにおいて、ノイジー入力やモーダル欠損に対する堅牢性は重要であるにもかかわらず、ほとんど研究されていません。この問題に対処するために、我々はConditional Dropout および LAnguage-driven (CoLA) フレームワークを導入します。このフレームワークには2つの主要な構成要素があります。1) 言語駆動品質評価（LQA）: 事前学習されたビジョン-言語モデルとプロンプト学習者を活用することで、LQAは追加の品質アノテーションを必要とせずに画像の貢献度を再調整します。この手法により、ノイジー入力の影響が効果的に軽減されます。2) 条件付きドロップアウト（CD）: モーダル欠損のある状況でのモデルの適応性を強化し、完全なモーダル下での性能を維持するための学習方法です。CDは、モーダル欠損を条件として扱うプラグイン訓練スキームであり、さまざまな双モーダルSODモデルの全体的な堅牢性を強化します。広範な実験結果から、提案手法は両方の条件下で最新の双モーダルSODモデルよりも優れた性能を示していることが確認されました。本研究が受理され次第、ソースコードを公開いたします。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

CoLA: 条件付きドロップアウトと言語駆動型の堅牢な双モーダル显著物体検出 | 記事 | HyperAI超神経