11日前
キャプション認識型一貫性を有する参照表現オブジェクトセグメンテーション
Yi-Wen Chen, Yi-Hsuan Tsai, Tiantian Wang, Yen-Yu Lin, Ming-Hsuan Yang

要約
参照表現は、シーン内の特定のオブジェクトを識別する自然言語の記述であり、日常会話で広く用いられている。本研究では、参照表現によって指定された画像内のオブジェクトをセグメンテーションする問題に注目する。この目的のため、言語エンコーダと視覚エンコーダを備えたエンドツーエンドで学習可能な理解ネットワークを提案する。また、テキストから画像への知識伝達を可能にする空間情報を意識した動的フィルタを導入し、指定されたオブジェクトの空間情報を効果的に捉える。さらに、言語モジュールと視覚モジュール間の効果的なコミュニケーションを実現するため、両モジュールに共通する特徴量を入力として受け取り、生成された文が与えられた参照表現と類似するように制約する一貫性を強制するキャプション生成ネットワークを採用することで、両者の表現を向上させる。提案手法は2つの参照表現データセット上で評価され、最先端のアルゴリズムと比較して優れた性能を示した。