2ヶ月前
視覚対話における再帰的な視覚注意
Yulei Niu; Hanwang Zhang; Manli Zhang; Jianhong Zhang; Zhiwu Lu; Ji-Rong Wen

要約
視覚対話は、画像に関する複数ラウンドの質問に答えることを必要とする困難な視覚言語タスクです。このタスクでは通常、以下の2つの主要な問題に対処する必要があります:(1) 視覚的に根ざした質問への回答方法(これは視覚的な質問応答(VQA)における核心的な課題です);(2) 質問と対話履歴間の共参照を推論する方法。視覚共参照の一例は、質問中の代名詞(例えば、「they」)が対話履歴中(例えば、「How many lamps are there?」)や画像に根ざした物体(例えば、「lamps」)と結びつくことです。本研究では、視覚対話における視覚共参照を解決するために、新しい注意メカニズムである再帰的視覚注意(Recursive Visual Attention; RvA)を提案します。具体的には、当該の対話エージェントは対話履歴を閲覧し、視覚共参照の解釈に十分な信頼性が得られるまで再帰的に視覚注意を洗練します。大規模なVisDial v0.9およびv1.0データセットに対する定量的および定性的実験結果から、提案されたRvAが最新手法を上回るだけでなく、追加の注釈なしで合理的な再帰と解釈可能な注意マップも達成できることを示しています。コードは\url{https://github.com/yuleiniu/rva}で入手可能です。