2ヶ月前

視覚対話における視覚参照解釈のためのデュアルアテンションネットワーク

Gi-Cheon Kang; Jaeseo Lim; Byoung-Tak Zhang

要約

視覚対話（VisDial）は、AIエージェントが画像に基づいて一連の質問に答えるタスクです。視覚的な質問応答（VQA）とは異なり、この質問の系列は対話履歴から時間的な文脈を捉え、視覚的に基づいた情報を活用する必要があります。視覚参照解釈と呼ばれる問題にはこれらの課題が含まれており、エージェントは与えられた質問内の曖昧な参照を解決し、与えられた画像内でそれらの参照を見つけることが求められます。本論文では、視覚参照解釈のためにデュアルアテンションネットワーク（DAN）を提案します。DANはREFERとFINDという2種類のアテンションネットワークで構成されています。具体的には、REFERモジュールは自己注意機構を使用して与えられた質問と対話履歴との間の潜在的な関係を学習します。FINDモジュールは画像特徴量と参照認識表現（つまり、REFERモジュールの出力）を受け取り、ボトムアップ注意機構を通じて視覚的接地を行います。我々はVisDial v1.0およびv0.9データセットに対して定性的および定量的にモデルを評価し、DANが以前の最先端モデルよりも大幅に優れていることを示しました。