9 天前

SUTD-TrafficQA:一个面向交通事件视频推理的问答基准与高效网络

Li Xu, He Huang, Jun Liu
SUTD-TrafficQA:一个面向交通事件视频推理的问答基准与高效网络
摘要

视频中的交通事件认知与推理是一项重要任务,在智能交通系统、辅助驾驶以及自动驾驶等领域具有广泛的应用价值。本文提出了一种新型数据集——SUTD-TrafficQA(交通问答数据集),该数据集基于采集的10,080段真实场景视频,构建了62,535组问答对,旨在为因果推理与事件理解模型在复杂交通场景下的认知能力提供基准测试。具体而言,我们设计了6项具有挑战性的推理任务,覆盖多种实际交通场景,用以评估模型对不同类型复杂交通事件的推理能力。此外,为实现高效且可靠的视频推理,我们提出了一种名为Eclipse的新方法——一种基于动态推理的高效视觉片段网络(Efficient glimpse network)。实验结果表明,该方法在显著降低计算成本的同时,仍能取得优越的性能表现。项目主页:https://github.com/SUTDCV/SUTD-TrafficQA。