11日前
質問-回答クロス言語画像マッチングを用いた弱教師ありセマンティックセグメンテーション
Songhe Deng, Wei Zhuo, Jinheng Xie, Linlin Shen

要約
クラスアクティベーションマップ(CAM)は、画像ラベルのみを用いてオブジェクト領域の局所化を可能にする弱教師ありセマンティックセグメンテーション(WSSS)において、広く用いられるツールとして注目されている。しかし、従来のCAM手法は、詳細な教師信号が不足しているため、モデルが画像全体を適切に理解する能力が制限され、ターゲットオブジェクト領域のアクティベーション不足や背景領域の誤アクティベーションといった問題を抱えている。本論文では、視覚言語基盤モデルを活用して画像のテキストベース理解を最大化し、アクティベーションマップの生成を効果的に導く新たなフレームワーク「質問-回答クロス言語画像マッチング(QA-CLIMS)」を提案する。まず、質問-回答プロンプト設計(QAPE)を用いて、視覚質問応答(VQA)モデルに対して一連の精心設計された質問を提示し、クエリ画像に適応した前景オブジェクトおよび背景のコアスを生成する。次に、領域画像テキスト対比(RITC)ネットワークを用いて、得られた前景・背景領域と生成されたコアスを対比学習によって比較する。本手法は、オープンボキャブラリから得られる豊富なテキスト情報を追加の教師信号として活用することで、より完全なオブジェクト領域を含む高品質なCAMを生成し、背景領域の誤アクティベーションを低減することを可能にする。広範な実験と分析を通じて、提案手法の有効性を検証し、PASCAL VOC 2012およびMS COCOの両データセットにおいて最先端の性能を達成することを示した。コードは以下のURLから公開されている:https://github.com/CVI-SZU/QA-CLIMS