11日前

イテレーティブ・コンテキスト認識グラフ推論によるビジュアルダイアログ

Dan Guo, Hui Wang, Hanwang Zhang, Zheng-Jun Zha, Meng Wang
イテレーティブ・コンテキスト認識グラフ推論によるビジュアルダイアログ
要約

視覚対話(Visual dialog)は、隠れた視覚的および文章的文脈間の意味的依存関係を理解するという挑戦的なタスクである。このタスクは、文脈が疎であり、グラフ構造(関係記述子)が未知であるようなグラフィカルモデルにおける関係推論に相当し、その背後にある文脈に依存する関係推論をいかにモデル化するかが鍵となる。このような課題に対処するため、本研究では新たな文脈に依存するグラフ(Context-Aware Graph; CAG)ニューラルネットワークを提案する。CAGにおける各ノードは、オブジェクトベース(視覚的)な表現と履歴関連(文章的)な文脈表現を統合した共同意味特徴に対応する。グラフ構造(対話における関係)は、適応的top-$K$メッセージ伝達機構を用いて反復的に更新される。具体的には、各メッセージ伝達ステップにおいて、各ノードは最も関連性の高い$K$個のノードを選択し、それらからのみメッセージを受け取る。その後、更新を経たノードに対して、全ノードにグラフアテンションを適用することで最終的なグラフ埋め込みを取得し、答えを推論する。CAGでは、各ノードがグラフ内で動的に変化する関係(異なる関連する$K$近傍ノード)を持つことから、文脈に依存する関係推論に寄与するのは、常に最も関連性の高いノードのみとなる。VisDial v0.9およびv1.0データセットにおける実験結果から、CAGが従来の比較手法を上回ることが示された。さらに、可視化結果により、本手法の解釈可能性(interpretability)が裏付けられている。

イテレーティブ・コンテキスト認識グラフ推論によるビジュアルダイアログ | 最新論文 | HyperAI超神経