7日前

ただ尋ねる:数百万のナレート動画から質問に答える方法を学ぶ

Antoine Yang, Antoine Miech, Josef Sivic, Ivan Laptev, Cordelia Schmid
ただ尋ねる:数百万のナレート動画から質問に答える方法を学ぶ
要約

近年の視覚的質問応答(Visual Question Answering, VideoQA)手法は、大規模なアノテーション付きデータセットに依存している。しかし、動画に対する質問と回答の手動アノテーションは、作業が煩雑で高コストであり、スケーラビリティを阻害する。本研究では、手動アノテーションを回避し、自動的なクロスモーダル監視(cross-modal supervision)を活用して、大規模な動画質問応答用学習データセットを生成する手法を提案する。我々は、テキストデータ上で訓練された質問生成トランスフォーマーを活用し、動画の音声認識(transcribed video narrations)から質問-回答ペアを自動生成する。このアプローチにより、音声付き動画を入力として、6900万件の動画-質問-回答トリプレットを含む「HowToVQA69M」データセットを自動生成する。本データセットにおける多様な回答のオープンボキャブラリ(open vocabulary)に対応するため、動画-質問マルチモーダルトランスフォーマーと回答トランスフォーマーの間で対照的損失(contrastive loss)に基づく訓練手順を提案する。さらに、ゼロショット(zero-shot)VideoQAタスクを導入し、特に稀な回答に対して優れた性能を示すことを実証する。また、MSRVTT-QA、MSVD-QA、ActivityNet-QA、How2QAの各ベンチマークにおいて、既存の最先端手法を大幅に上回ることを示す。最後に、詳細な評価を可能にするために、言語的バイアスを低減し、高品質な冗長な手動アノテーションを備えた新規VideoQAデータセット「iVQA」を提案する。本研究のコード、データセット、および学習済みモデルは、https://antoyang.github.io/just-ask.html にて公開されている。