HyperAIHyperAI

Command Palette

Search for a command to run...

視覚対話における視覚参照解釈のためのデュアルアテンションネットワーク

Gi-Cheon Kang; Jaeseo Lim; Byoung-Tak Zhang

概要

視覚対話(VisDial)は、AIエージェントが画像に基づいて一連の質問に答えるタスクです。視覚的な質問応答(VQA)とは異なり、この質問の系列は対話履歴から時間的な文脈を捉え、視覚的に基づいた情報を活用する必要があります。視覚参照解釈と呼ばれる問題にはこれらの課題が含まれており、エージェントは与えられた質問内の曖昧な参照を解決し、与えられた画像内でそれらの参照を見つけることが求められます。本論文では、視覚参照解釈のためにデュアルアテンションネットワーク(DAN)を提案します。DANはREFERとFINDという2種類のアテンションネットワークで構成されています。具体的には、REFERモジュールは自己注意機構を使用して与えられた質問と対話履歴との間の潜在的な関係を学習します。FINDモジュールは画像特徴量と参照認識表現(つまり、REFERモジュールの出力)を受け取り、ボトムアップ注意機構を通じて視覚的接地を行います。我々はVisDial v1.0およびv0.9データセットに対して定性的および定量的にモデルを評価し、DANが以前の最先端モデルよりも大幅に優れていることを示しました。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
視覚対話における視覚参照解釈のためのデュアルアテンションネットワーク | 記事 | HyperAI超神経