7ヶ月前

視覚質問応答

マルチモーダル

自然言語処理

自然言語処理

マルチモーダル

Yulei Niu Hanwang Zhang Manli Zhang Jianhong Zhang Zhiwu Lu Ji-Rong Wen

概要

視覚対話は、画像に関する複数ラウンドの質問に答えることを必要とする困難な視覚言語タスクです。このタスクでは通常、以下の2つの主要な問題に対処する必要があります：(1) 視覚的に根ざした質問への回答方法（これは視覚的な質問応答(VQA)における核心的な課題です）；(2) 質問と対話履歴間の共参照を推論する方法。視覚共参照の一例は、質問中の代名詞（例えば、「they」）が対話履歴中（例えば、「How many lamps are there?」）や画像に根ざした物体（例えば、「lamps」）と結びつくことです。本研究では、視覚対話における視覚共参照を解決するために、新しい注意メカニズムである再帰的視覚注意（Recursive Visual Attention; RvA）を提案します。具体的には、当該の対話エージェントは対話履歴を閲覧し、視覚共参照の解釈に十分な信頼性が得られるまで再帰的に視覚注意を洗練します。大規模なVisDial v0.9およびv1.0データセットに対する定量的および定性的実験結果から、提案されたRvAが最新手法を上回るだけでなく、追加の注釈なしで合理的な再帰と解釈可能な注意マップも達成できることを示しています。コードは\url{https://github.com/yuleiniu/rva}で入手可能です。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

7ヶ月前

視覚質問応答

マルチモーダル

自然言語処理

自然言語処理

マルチモーダル

Yulei Niu Hanwang Zhang Manli Zhang Jianhong Zhang Zhiwu Lu Ji-Rong Wen

概要

視覚対話は、画像に関する複数ラウンドの質問に答えることを必要とする困難な視覚言語タスクです。このタスクでは通常、以下の2つの主要な問題に対処する必要があります：(1) 視覚的に根ざした質問への回答方法（これは視覚的な質問応答(VQA)における核心的な課題です）；(2) 質問と対話履歴間の共参照を推論する方法。視覚共参照の一例は、質問中の代名詞（例えば、「they」）が対話履歴中（例えば、「How many lamps are there?」）や画像に根ざした物体（例えば、「lamps」）と結びつくことです。本研究では、視覚対話における視覚共参照を解決するために、新しい注意メカニズムである再帰的視覚注意（Recursive Visual Attention; RvA）を提案します。具体的には、当該の対話エージェントは対話履歴を閲覧し、視覚共参照の解釈に十分な信頼性が得られるまで再帰的に視覚注意を洗練します。大規模なVisDial v0.9およびv1.0データセットに対する定量的および定性的実験結果から、提案されたRvAが最新手法を上回るだけでなく、追加の注釈なしで合理的な再帰と解釈可能な注意マップも達成できることを示しています。コードは\url{https://github.com/yuleiniu/rva}で入手可能です。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

視覚対話における再帰的な視覚注意 | 記事 | HyperAI超神経