2ヶ月前

自然言語表現からのセグメンテーション

Ronghang Hu; Marcus Rohrbach; Trevor Darrell
自然言語表現からのセグメンテーション
要約

本論文では、自然言語表現に基づいた画像のセグメンテーションという新規問題に取り組んでいます。これは、事前に定義された意味クラスの集合に対する従来の意味セグメンテーションとは異なります。例えば、「右側のベンチに座っている2人の男性」というフレーズは、右側のベンチに座っている2人のみをセグメンテーションし、他のベンチに立っているまたは座っている人物は対象としません。このタスクに適した従来のアプローチは、固定されたカテゴリセットおよび/または矩形領域に限定されていました。自然言語表現からピクセル単位でのセグメンテーションを生成するために、我々は視覚情報と言語情報を統合して処理するためのエンドツーエンドで学習可能な再帰型および畳み込み型ネットワークモデルを提案します。当該モデルにおいては、再帰型LSTMネットワークが参照表現をベクトル表現にエンコードし、完全畳み込み型ネットワークが画像から空間特徴マップを抽出し、対象物体に対する空間応答マップを出力します。ベンチマークデータセットでの実験結果により、我々のモデルが自然言語表現から高品質なセグメンテーション出力を生成できることを示し、ベースライン手法に対して大幅な性能向上を達成していることが確認されました。

自然言語表現からのセグメンテーション | 最新論文 | HyperAI超神経