17日前

透過テキストグループ化による参照画像セグメンテーション

{ Tyng-Luh Liu, Hwann-Tzong Chen, Yi-Chen Lo, Songhao Jia, Ding-Jie Chen}
透過テキストグループ化による参照画像セグメンテーション
要約

画像セグメンテーションにおける従来のグループ化手法に着想を得て、本研究ではその深層ニューラルネットワーク(DNN)版を構築し、参照表現を伴うセグメンテーション問題に適用する。提案手法は、畳み込み・再帰型ニューラルネットワーク(ConvRNN)に基づき、下位から上位へのセグメンテーション手がかりを反復的に上位から下位へと処理する。自然言語による参照表現を入力として、本手法は各画素に対する関連性を学習し、画素単位の「透過テキスト埋め込み画素マップ(See-through-Text Embedding Pixelwise, STEP)」を生成する。このSTEPマップは、学習された視覚的・言語的共同埋め込みによって、画素レベルにおけるセグメンテーションの手がかりを明らかにする。ConvRNNは、STEPマップをより精緻なマップに変換することで、上位から下位への近似処理を実行するが、正解ラベルからの分類損失を用いた学習により、その精度向上が期待される。精緻化されたマップを用いて、参照表現のテキスト表現を再評価し、注意分布を更新した後、新たなSTEPマップを生成し、次段のConvRNNへの入力として用いる。このような協調学習によって、フレームワークは参照セグメンテーションと参照文に対する妥当な注意分布の両方を、段階的かつ同時的に得ることが可能となる。本手法は、他のDNNモデルによる物体検出結果に依存せず、汎用性を備えつつ、実験において4つのデータセットすべてで最先端の性能を達成している。