7日前
WildQA:リアルワールド動画質問応答
Santiago Castro, Naihao Deng, Pingxuan Huang, Mihai Burzo, Rada Mihalcea

要約
既存の動画理解データセットは、主に人間同士の相互作用に焦点を当てており、「野生」(アウトドア)環境で記録された動画、すなわち屋外で撮影された動画にはほとんど注目が向けられていない。そこで本研究では、屋外環境で記録された動画を対象とした動画理解データセット「WILDQA」を提案する。本データセットは、動画質問応答(Video QA)に加え、与えられた質問と回答に対して視覚的根拠(視覚的証拠)を特定するという新たなタスク、すなわち「動画証拠選択(Video Evidence Selection)」を導入している。幅広いベースラインモデルを用いた評価を通じて、WILDQAが視覚言語研究分野に新たな課題を提示していることを示した。本データセットは、https://lit.eecs.umich.edu/wildqa/ にて公開されている。