2ヶ月前
TGIF-QA: ビジュアルクエスチョンアンサリングにおける時空間推論へのアプローチ
Yunseok Jang; Yale Song; Youngjae Yu; Youngjin Kim; Gunhee Kim

要約
視覚と言語理解は、人工知能において激しい研究が行われている主題として台頭しています。この研究分野の多くの課題の中でも、視覚的な質問応答(VQA)は最も成功したものの一つとなっています。VQAの目的は、地域レベルの詳細で視覚的内容を理解し、それらを自然言語形式の質問と回答のペアに関連付けるモデルを学習することです。過去数年の急速な進歩にもかかわらず、既存のVQAに関する研究の大半は画像に焦点を当てています。本論文では、VQAをビデオ領域に拡張することに重点を置き、以下の三つの重要な点で文献に貢献します。第一に、ビデオVQAのために特別に設計された三つの新しい課題を提案します。これらの課題では、質問に対する正確な回答を得るためにはビデオから空間的・時間的な推論が必要となります。第二に、既存のVQA研究を私たちの新しい課題で拡張する大規模な新データセットTGIF-QAを導入します。第三に、空間的および時間的注意機構を持つ双方向LSTM(Long Short-Term Memory)に基づく手法を提案し、経験的な評価を通じて従来のVQA技術よりもその有効性を示します。