17 天前

PTSEFormer:面向视频目标检测的渐进式时空增强Transformer

Han Wang, Jun Tang, Xiaodong Liu, Shanyan Guan, Rong Xie, Li Song
PTSEFormer:面向视频目标检测的渐进式时空增强Transformer
摘要

近年来,将上下文帧(context frames)应用于视频目标检测,以提升目标检测性能已成为一种显著趋势。现有方法通常采用一次性特征聚合策略来增强特征表示,但这类方法往往缺乏邻近帧的空间信息,且存在特征聚合不充分的问题。为解决上述挑战,本文提出一种渐进式方法,实现时间信息与空间信息的协同融合,从而实现特征的综合增强。具体而言,通过时间特征聚合模型(Temporal Feature Aggregation Model, TFAM)在上下文帧与目标帧(即待检测帧)之间引入时间信息,该模型基于注意力机制实现帧间特征交互。同时,我们设计了空间过渡感知模型(Spatial Transition Awareness Model, STAM),用于捕捉各上下文帧与目标帧之间的位置转移信息。基于Transformer架构的目标检测器DETR,本文提出的PTSEFormer采用端到端的训练与推理方式,有效避免了复杂的后处理流程,并在ImageNet VID数据集上取得了88.1%的mAP(平均精度均值)性能。代码已开源,地址为:https://github.com/Hon-Wong/PTSEFormer。

PTSEFormer:面向视频目标检测的渐进式时空增强Transformer | 最新论文 | HyperAI超神经