7 天前
车道之间的阅读:道路场景下的文本视频问答
George Tom, Minesh Mathew, Sergi Garcia, Dimosthenis Karatzas, C.V. Jawahar

摘要
道路周围的文本与标识为驾驶员提供了至关重要的信息,对于安全导航和态势感知具有关键作用。在动态场景中实现文本识别是一项极具挑战性的任务,因为文本信息通常仅短暂出现,且必须在较远距离即实现早期检测。能够利用此类信息辅助驾驶员的系统,不仅需要从视频流中提取并融合视觉与文本线索,还需具备时间维度上的推理能力。为应对这一挑战,我们提出了RoadTextVQA——一个面向驾驶员辅助场景的视频问答(VideoQA)新数据集。该数据集包含来自多个国家的3,222段驾驶视频,配有10,500个基于视频中实际道路文本或交通标志提出的问题。我们对当前最先进的视频问答模型在RoadTextVQA数据集上的表现进行了评估,结果表明该领域仍有显著的提升空间,同时也验证了该数据集在推动车载辅助系统研究以及文本感知的多模态问答技术发展方面的巨大价值。该数据集已公开,访问地址为:http://cvit.iiit.ac.in/research/projects/cvit-projects/roadtextvqa。