
要約
私たちは、オープンボキャブラリのセマンティックセグメンテーションのために、非監督的なオブジェクトマスク発見とオブジェクトグラウンディングの二段階アプローチである「lazy visual grounding」を提案します。これまでの多くの研究では、このタスクをオブジェクトレベルの理解なしでピクセルからテキストへの分類として扱い、事前学習されたビジョン・アンド・ランゲージモデルの画像からテキストへの分類能力を利用していました。しかし、私たちは視覚的なオブジェクトは事前のテキスト情報がなくても区別可能であると主張します。なぜなら、セグメンテーションは本質的にビジョンタスクであり、視覚的な特徴に基づいてオブジェクトを識別することが可能です。Lazy visual groundingはまず、反復的な正規化カット(Normalized cuts)を使用して画像全体を覆うオブジェクトマスクを発見し、その後で発見されたオブジェクトにテキストを割り当てる後期相互作用方式を採用しています。私たちのモデルは追加の学習を必要とせず、Pascal VOC、Pascal Context、COCO-object、COCO-stuff、ADE 20Kという5つの公開データセットにおいて優れた性能を示しています。特に、視覚的に魅力的なセグメンテーション結果は、モデルがオブジェクトを正確に局所化する能力を証明しています。論文のホームページ: https://cvlab.postech.ac.kr/research/lazygrounding