7日前
道路におけるテキスト付きビデオQA:レーンの間を読む
George Tom, Minesh Mathew, Sergi Garcia, Dimosthenis Karatzas, C.V. Jawahar

要約
道路周辺のテキストや標識は、ドライバーにとって安全な走行および状況認識に不可欠な情報を提供する。動いている状況下でのシーン内テキスト認識は、依然として困難な課題であり、一般的にテキスト情報は短時間しか表示されないため、遠方からの早期検出が求められる。ドライバー支援を目的としたシステムは、動画ストリームから視覚的およびテキスト的ヒントを抽出・統合するだけでなく、時間的な推論能力も備える必要がある。この課題に対応するため、本研究ではドライバー支援を目的とした動画質問応答(VideoQA)タスクを対象に、新たなデータセット「RoadTextVQA」を提案する。RoadTextVQAは、複数の国から収集された3,222本のドライブ動画から構成されており、それらの動画に登場するテキストや道路標識に基づいて、合計10,500件の質問が付与されている。本研究では、最先端の動画質問応答モデルがRoadTextVQAデータセット上で示す性能を評価し、この分野における大幅な改善の可能性と、車載支援システムおよびテキストを意識したマルチモーダル質問応答に関する研究を進展させる上で本データセットの有用性を示した。データセットの公開リンクは以下の通り:http://cvit.iiit.ac.in/research/projects/cvit-projects/roadtextvqa