2ヶ月前
弱教師付きオブジェクト位置特定のための生成プロンプトモデル
Yuzhong Zhao; Qixiang Ye; Weijia Wu; Chunhua Shen; Fang Wan

要約
弱教師監督下的物体定位(Weakly Supervised Object Localization: WSOL)は、画像カテゴリラベルから物体位置モデルを学習する際に依然として課題となっています。従来の手法では、識別的に活性化モデルを訓練することで、代表的であるが識別力の低い物体部位が無視される傾向があります。本研究では、生成プロンプトモデル(Generative Prompt Model: GenPromp)を提案し、WSOLを条件付き画像ノイズ除去手続きとして定式化することで、初めて生成パイプラインを用いて識別力の低い物体部位を定位することを目指します。訓練中には、GenPrompが画像カテゴリラベルを学習可能なプロンプト埋め込みに変換し、生成モデルに入力して条件付きでノイズのある入力画像を復元し、代表的な埋め込みを学習します。推論時には、enPrompが代表的な埋め込みと識別的な埋め込み(既存のビジョン言語モデルから取得)を組み合わせて、両方の代表性と識別力を活用します。これらの組み合わされた埋め込みは最終的に多尺度高品質な注意マップを生成し、物体全体の範囲の定位を支援します。CUB-200-2011およびILSVRCでの実験結果は、GenPrompが最良の識別モデルよりもそれぞれ5.2%および5.6%(Top-1 Loc)優れていることを示しており、生成モデルを使用したWSOLに対する堅固な基準となることを証明しています。コードはhttps://github.com/callsys/GenPromp で利用可能です。