HyperAIHyperAI

Command Palette

Search for a command to run...

視覚質問応答のための焦点視覚-テキスト注意

Junwei Liang Lu Jiang Liangliang Cao Li-Jia Li Alexander Hauptmann

概要

最近のニューラルネットワークに関する言語と視覚の研究は、単純な単一画像の視覚的な質問応答に成功裏に適用されてきました。しかし、個人写真などのマルチメディアコレクションにおける実生活の質問応答問題を解決するためには、連続する写真や動画の全体的なコレクションを見ることが必要です。大規模なコレクションから質問に答える際、自然な課題として答えを支持する断片を特定することが挙げられます。本論文では、視覚的な質問応答において視覚情報とテキストシーケンス情報(画像やテキストメタデータなど)が提示される場合の集団的推論を行う新しいニューラルネットワークであるFocal Visual-Text Attention network (FVTA)について説明します。FVTAは、エンドツーエンドのアプローチを導入し、階層的なプロセスを通じて順次データの中で焦点を当てるべきメディアや時間を動的に決定します。FVTAは質問への回答だけでなく、システムがその回答を得る根拠となる正当化も提供することができます。FVTAはMemexQAデータセットで最先端の性能を達成しており、MovieQAデータセットでも競争力のある結果を示しています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
視覚質問応答のための焦点視覚-テキスト注意 | 記事 | HyperAI超神経