Command Palette
Search for a command to run...
MAttNet:参照表現理解のためのモジュール型アテンションネットワーク
MAttNet:参照表現理解のためのモジュール型アテンションネットワーク
概要
本稿では、自然言語表現によって記述された画像領域の特定を行う「参照表現理解(referring expression comprehension)」について考察する。近年の大多数の研究では、表現を単一のユニットとして扱うが、本研究では、対象の外見、位置、他の物体との関係性という3つのモジュール型構成要素に表現を分解することを提案する。これにより、異なる種類の情報を含む表現に対しても、エンド・ツー・エンドの枠組み内で柔軟に対応可能となる。本研究で提案するモデル、すなわち「モジュラーアテンションネットワーク(MAttNet)」では、2種類のアテンション機構を用いる。1つは言語ベースのアテンションであり、各モジュールの重みと、各モジュールが注目すべき語やフレーズを学習するものである。もう1つは視覚ベースのアテンションであり、対象モジュールおよび関係性モジュールが画像の関連する領域に注目できるようにする。モジュールの重みは、3つのモジュールからのスコアを動的に統合し、全体的なスコアを出力する。実験の結果、MAttNetは、ボックスレベルおよびピクセルレベルの両方の理解タスクにおいて、従来の最先端手法を大きく上回る性能を達成した。デモおよびコードも公開している。