2ヶ月前

Locate then Segment: Referring Image Segmentationのための強力なパイプライン

Jing, Ya ; Kong, Tao ; Wang, Wei ; Wang, Liang ; Li, Lei ; Tan, Tieniu
Locate then Segment: Referring Image Segmentationのための強力なパイプライン
要約

参照画像セグメンテーションは、自然言語表現で指し示された対象物をセグメントすることを目指しています。従来の手法では、視覚言語特徴を直接最終的なセグメンテーションマスクに融合するために、暗黙的かつ再帰的な特徴相互作用メカニズムの設計に焦点が当てられてきましたが、参照インスタンスの位置情報の明示的なモデリングを行っていませんでした。これらの問題に対処するため、私たちはこのタスクを別の視点から捉え、「位置付け→セグメンテーション」(Locate-Then-Segment: LTS)スキームに分解しました。自然言語表現が与えられた場合、人は一般的にまず対応する目標画像領域に注意を向け、その後そのコンテクストに基づいて対象物の詳細なセグメンテーションマスクを生成します。LTSはまず視覚的および文章的な特徴を抽出・融合してクロスモーダル表現を得ます。次に、視覚的文章的特徴に対するクロスモーダル相互作用を行い、位置情報を先験的に用いて参照される対象物を特定します。最後に、軽量なセグメンテーションネットワークを使用してセグメンテーション結果を生成します。私たちのLTSは単純ですが驚くほど効果的です。3つの人気ベンチマークデータセットにおいて、LTSは以前の最先端手法よりも大幅に優れた性能を発揮しており(例:RefCOCO+で+3.2%、RefCOCOgで+3.4%)。さらに、当モデルは対象物の位置情報を明示的に特定することで解釈可能性が高まり、可視化実験でもこれが証明されています。私たちはこのフレームワークが参照画像セグメンテーションにおける強力なベースラインとして有望であると信じています。