2ヶ月前

CRIS: CLIP駆動の参照画像セグメンテーション

Wang, Zhaoqing ; Lu, Yu ; Li, Qiang ; Tao, Xunqiang ; Guo, Yandong ; Gong, Mingming ; Liu, Tongliang
CRIS: CLIP駆動の参照画像セグメンテーション
要約

参照画像セグメンテーションは、自然な言語表現を用いて参照対象をセグメントすることを目指しています。テキストと画像のデータ特性が異なるため、ネットワークがテキストとピクセルレベルの特徴を適切に合わせることが困難です。既存のアプローチでは、事前学習モデルを使用して学習を促進していますが、言語/視覚の知識を別々に転送し、マルチモーダルに対応する情報を無視しています。最近のコントラスティブ言語-画像事前学習(Contrastive Language-Image Pretraining: CLIP)の進展に着想を得て、本論文ではエンドツーエンドのCLIP駆動型参照画像セグメンテーションフレームワーク(CRIS)を提案します。マルチモーダルの知識を効果的に転送するために、CRISは視覚-言語デコーディングとコントラスティブ学習を用いてテキストからピクセルへの対応付けを行います。より具体的には、細かい意味情報がテキスト表現から各ピクセルレベルの活性化へ伝播するように視覚-言語デコーダーを設計しました。これにより、2つのモーダリティ間の一貫性が向上します。さらに、テキストからピクセルへのコントラスティブ学習を導入し、関連するピクセルレベルの特徴との類似性を明示的に強制し、非関連なものとは異なるようにしました。3つのベンチマークデータセットでの実験結果は、当社が提案したフレームワークが後処理なしで最先端の性能を大幅に上回ることを示しています。コードは公開される予定です。

CRIS: CLIP駆動の参照画像セグメンテーション | 最新論文 | HyperAI超神経