2ヶ月前

画像再構成による文章表現の接地

Anna Rohrbach; Marcus Rohrbach; Ronghang Hu; Trevor Darrell; Bernt Schiele
画像再構成による文章表現の接地
要約

視覚コンテンツ内の任意の自由形式のテキストフレーズを位置づける(すなわち、grounding)は、人間とコンピュータの相互作用や画像-テキスト参照解像度において多くの応用を持つ難問である。フレーズの真実の空間的位置情報を提供するデータセットは少ないため、 grounding 監督がほとんどないか全くないデータから学習することが望ましい。本研究では、attention 機能を用いて与えられたフレーズを再構築することにより grounding を学習する新しい手法を提案する。この attention 機能は潜在的なものでも直接最適化されたものでもよい。訓練中、当手法は再帰型ネットワーク言語モデルを使用してフレーズを符号化し、その後、入力フレーズを再構築するために関連する画像領域に注目する方法を学習する。テスト時には、正しい attention つまり grounding が評価される。grounding 監督が利用可能であれば、attention 機能に対する損失を通じて直接適用できる。当手法の有効性は、Flickr 30k Entities データセットと ReferItGame データセットで異なる監督レベル(完全な監督から部分的な監督まで、あるいは全くの非監督)において示され、当手法の監督版は両データセットで既存の最先端技術に対して大幅に性能を向上させている。注:「grounding」、「attention 機能」などの専門用語については一般的な日本語訳を使用しました。「latent」については「潜在的な」と訳していますが、文脈によって「隠れた」などとも訳すことがあります。

画像再構成による文章表現の接地 | 最新論文 | HyperAI超神経