
摘要
基于视频的车辆检测在过去十年中受到了广泛关注,许多基于深度学习的检测方法可以应用于这一领域。然而,这些方法主要是为静态图像设计的,直接将其应用于视频车辆检测通常会获得较差的性能。在本研究中,我们提出了一种新的单阶段基于视频的车辆检测器,该检测器集成了3D卷积网络(3DCovNet)和焦点损失(focal loss),称为3D-DETNet。借助3D卷积网络和焦点损失的支持,我们的方法能够捕捉运动信息,比其他为静态图像设计的单阶段方法更适合用于视频中的车辆检测。首先,多个视频帧被输入到3D-DETNet以生成多个空间特征图,然后子模型3DConvNet将这些空间特征图作为输入来捕捉时间信息,并将其传递给最终的全卷积模型以预测视频帧中车辆的位置。我们在UA-DETAC车辆检测数据集上评估了我们的方法,结果表明3D-DETNet具有最佳性能,并且与其他竞争方法相比保持了更高的26帧/秒的检测速度。