HyperAIHyperAI

Command Palette

Search for a command to run...

視覚対話における注意メモリを用いた視覚参照解像度

Paul Hongsuck Seo Andreas Lehrmann Bohyung Han Leonid Sigal

概要

視覚対話は、入力画像に対して相互に関連する一連の質問に答えるタスクであり、しばしば質問間の視覚的な参照を解決する必要があります。この問題は、画像と質問のペアから推定される空間的注意(別名:視覚的根拠)に依存する視覚的質問応答(VQA)とは異なります。私たちは、過去の視覚的注意を利用して現在の参照を解決する新しい注意メカニズムを提案します。提案されたモデルには、以前の(注意、キー)ペアのシーケンスを記憶する関連注意メモリが装備されています。このメモリから、モデルは現在の質問に関連性が高い最も最近の以前の注意を検索し、潜在的に曖昧な参照を解決するために利用します。モデルは次に、取得した注意と仮定的な注意を統合して、現在の質問に対する最終的な注意を得ます。具体的には、動的パラメータ予測を使用して、質問に基づいて2つの注意を組み合わせます。新しい合成視覚対話データセットでの広範な実験を通じて、視覚的参照解決が重要な役割を果たす状況において、私たちのモデルが最先端技術(約16ポイント上回る)よりも著しく優れていることを示しています。さらに、ベースラインよりも大幅に少ないパラメータを持つにもかかわらず、視覚対話データセットにおいても優れた性能(約2ポイント向上)を達成しています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
視覚対話における注意メモリを用いた視覚参照解像度 | 記事 | HyperAI超神経