2ヶ月前

参照表現における関係のモデル化に組成的なモジュラーネットワークを使用する

Ronghang Hu; Marcus Rohrbach; Jacob Andreas; Trevor Darrell; Kate Saenko
参照表現における関係のモデル化に組成的なモジュラーネットワークを使用する
要約

人々はしばしば画像内の物体を他の物体との関係で表現します。例えば、「テーブルの下に座っている黒猫」は「黒猫」という物体と、「テーブル」という別の物体との関係を指しています。これらの関係を理解することは、自然言語表現の解釈と対応付けを行う上で不可欠です。これまでの多くの研究では、参照表現全体を一つの領域に全体的に対応付けるか、または固定されたカテゴリセットに基づいて関係を局所化することに焦点を当てています。本論文では、それとは異なり、参照表現を構成要素に分析し、入力表現で言及された物体と関係性を識別し、これらすべてをシーン内に対応付けることができるモジュール型の深層アーキテクチャを提案します。このアプローチを組成的モジュールネットワーク(Compositional Modular Networks: CMNs)と呼びます。これは言語解析と視覚的推論をエンドツーエンドで学習する新しいアーキテクチャです。当方の手法は、局所的な領域と領域間のペアワイズな相互作用を検査する2種類のニューラルモジュールを中心に構築されています。CMNsは複数の参照表現データセットで評価され、すべてのタスクにおいて最先端の手法を超える性能を示しました。

参照表現における関係のモデル化に組成的なモジュラーネットワークを使用する | 最新論文 | HyperAI超神経