7日前

iPerceive：マルチモーダル密度型ビデオキャプションおよびビデオ質問応答における常識推論の適用

Aman Chadha, Gurneet Arora, Navpreet Kaloty

要約

視覚理解に関する従来の研究は、主に「何が起きたか（例：イベント認識）」や「どこで起きたか（例：イベントの局所化）」という情報に依存しており、場合によってはイベント間の正しい文脈的関係を記述できず、誤った視覚的注目（visual attention）を引き起こすことがある。人間という存在を機械とは根本的に異なるものとする要因の一つは、たとえばイベントXの結果として生じたイベントYといった関連性の背後にある因果関係を本能的に探求しようとする姿勢にある。本研究では、動画内のオブジェクト間の因果関係を推論するために、文脈的ヒントを用いて共通の常識知識ベースを構築することで、動画における「なぜ」を理解できるフレームワーク「iPerceive」を提案する。本手法の有効性は、密な動画キャプション生成（Dense Video Captioning, DVC）および動画質問応答（Video Question Answering, VideoQA）のタスクを用いて実証した。さらに、DVCおよびVideoQAの多くの従来手法が視覚情報にのみ依存しているのに対し、人間の環境認識において音声や言語といった他のモダリティも極めて重要である。そこで、DVCおよびVideoQAタスクを複数モダリティを活用する機械翻訳問題として定式化した。ActivityNet CaptionsおよびTVQAデータセット上でのiPerceive DVCおよびiPerceive VideoQAの評価により、本手法が現状の最先端技術をさらに進展させることを示した。コードおよびサンプルは以下のURLから公開されている：iperceive.amanchadha.com。