2ヶ月前

視覚対話における注意メモリを用いた視覚参照解像度

Paul Hongsuck Seo; Andreas Lehrmann; Bohyung Han; Leonid Sigal

要約

視覚対話は、入力画像に対して相互に関連する一連の質問に答えるタスクであり、しばしば質問間の視覚的な参照を解決する必要があります。この問題は、画像と質問のペアから推定される空間的注意（別名：視覚的根拠）に依存する視覚的質問応答（VQA）とは異なります。私たちは、過去の視覚的注意を利用して現在の参照を解決する新しい注意メカニズムを提案します。提案されたモデルには、以前の（注意、キー）ペアのシーケンスを記憶する関連注意メモリが装備されています。このメモリから、モデルは現在の質問に関連性が高い最も最近の以前の注意を検索し、潜在的に曖昧な参照を解決するために利用します。モデルは次に、取得した注意と仮定的な注意を統合して、現在の質問に対する最終的な注意を得ます。具体的には、動的パラメータ予測を使用して、質問に基づいて2つの注意を組み合わせます。新しい合成視覚対話データセットでの広範な実験を通じて、視覚的参照解決が重要な役割を果たす状況において、私たちのモデルが最先端技術（約16ポイント上回る）よりも著しく優れていることを示しています。さらに、ベースラインよりも大幅に少ないパラメータを持つにもかかわらず、視覚対話データセットにおいても優れた性能（約2ポイント向上）を達成しています。