要約
近年、ニューラルネットワークを用いた言語と視覚に関する知見は、単一画像に対する視覚的質問応答(single-image visual question answering)という簡単なタスクに成功裏に応用されてきた。しかし、個人の写真アルバムなど、マルチメディアコレクションにおける現実世界の質問応答問題に取り組むためには、写真の連続的なシーケンス全体を考慮する必要がある。本論文では、ユーザーの写真シーケンスをもとに、その写真群に記録された出来事に関する記憶を回復するのに役立つ質問に自動的に回答することを目的とした、新しいマルチモーダルなMemexQAタスクを提案する。回答にはテキストによる答えに加え、その根拠となる数枚の写真( grounding photos)も提示される。これらの根拠写真は、ユーザーが回答の正しさを迅速に確認できるようにする上で不可欠である。このタスクの解決に向けて、本研究は以下の2点を提示する:1)実際の個人写真アルバムから構成される、初めて公開されたマルチモーダル質問応答データセット「MemexQAデータセット」を構築した。2)時系列データにおいて、どのメディアやどの時刻に注目すべきかを動的に決定する階層的プロセスを活用した、エンド・ツー・エンドで学習可能なネットワークを提案した。MemexQAデータセット上での実験結果から、本モデルが強力なベースラインを上回り、この困難なタスクにおいて最も関連性の高い根拠写真を生成できることを示した。