11日前

エンドツーエンドの視覚言語変換器における局在化特性の出現：すべてを接地する

Walid Bousselham, Felix Petersen, Vittorio Ferrari, Hilde Kuehne

要約

視覚言語基盤モデルは、画像検索、分類、キャプション生成など、さまざまなゼロショット設定において顕著な性能を示している。しかし、画像内の参照表現や物体のゼロショット局所化においては、これまでのところその性能がやや劣っている傾向がある。その結果、このタスクに対して微調整（fine-tuning）が必要となる場合が多い。本論文では、事前に学習された視覚言語（VL）モデルが、微調整を一切行わずにゼロショットオープンボリューム物体局所化を実現可能であることを示す。この能力を活用するために、CLIPSurgeryで導入された値-値アテンション（value-value attention）の概念を、自己-自己アテンション（self-self attention）パスへと一般化した「グランドリング・エブリシングモジュール」（GEM: Grounding Everything Module）を提案する。我々は、自己-自己アテンションという概念がクラスタリングに対応することを示し、同じ物体から生じるトークン群が互いに類似するように強制しつつ、言語空間とのアライメントを維持することを可能にする。さらに、グループ形成を適切に導くために、複数の正則化手法を提案し、モデルが異なるデータセットやバックボーン間で最終的に一般化できるようにする。提案するGEMフレームワークは、セマンティックセグメンテーションに関するさまざまなベンチマークタスクおよびデータセット上で評価された。その結果、GEMは他のトレーニング不要なオープンボリューム局所化手法を上回る性能を発揮するだけでなく、最近提案された大規模セグメンテーションベンチマーク「OpenImagesV7」においても最先端の結果を達成した。