17 天前

基于循环瞥见的Transformer检测解码器

Zhe Chen, Jing Zhang, Dacheng Tao
基于循环瞥见的Transformer检测解码器
摘要

尽管基于Transformer的检测方法(DETR)日益流行,但其全局注意力建模机制需要极长的训练周期才能优化并达到理想的检测性能。与现有研究主要通过设计先进的特征或嵌入方式来缓解训练难题不同,本文指出,基于感兴趣区域(Region-of-Interest, RoI)的检测精炼方法可有效缓解DETR类方法的训练难度。基于这一观察,本文提出一种新颖的递归凝视解码器(Recurrent Glimpse-based Decoder, REGO)。具体而言,REGO采用多阶段递归处理结构,引导DETR的注意力逐步更准确地聚焦于前景目标。在每一处理阶段,系统从上一阶段检测结果的边界框区域向外扩展后所形成的RoI中提取视觉特征作为“凝视特征”(glimpse features),随后引入一种基于凝视特征的解码器,结合前一阶段的注意力建模输出,生成更精细的检测结果。在实际应用中,REGO可轻松嵌入主流DETR变体中,同时保持其端到端的训练与推理流程。实验结果表明,REGO使可变形DETR(Deformable DETR)在仅训练36个epoch的情况下,即可在MSCOCO数据集上达到44.8 AP的性能,显著优于原始DETR(需500个epoch)和原始可变形DETR(需50个epoch)才能达到的相近水平。此外,在相同50个epoch的训练设置下,REGO在不同DETR检测器上均实现了最高达7%的相对性能提升。代码已开源,可通过 https://github.com/zhechen/Deformable-DETR-REGO 获取。

基于循环瞥见的Transformer检测解码器 | 最新论文 | HyperAI超神经