17 天前
ViDT:一种高效且有效的全Transformer架构目标检测器
Hwanjun Song, Deqing Sun, Sanghyuk Chun, Varun Jampani, Dongyoon Han, Byeongho Heo, Wonjae Kim, Ming-Hsuan Yang

摘要
Transformer 正在重塑计算机视觉领域的格局,尤其是在目标识别任务中表现突出。检测型 Transformer(Detection Transformers)是首个完全端到端学习的目标检测系统,而视觉 Transformer(Vision Transformers)则是首个完全基于 Transformer 架构的图像分类模型。本文提出将视觉 Transformer 与检测 Transformer 相融合,构建了一个高效且性能优异的目标检测框架——ViDT(Vision and Detection Transformers)。ViDT 引入了一种重构的注意力模块,将近期提出的 Swin Transformer 扩展为一个独立的目标检测器,并配备了一个计算高效的 Transformer 解码器,该解码器能够有效利用多尺度特征,并结合多种辅助技术,在几乎不增加计算负担的前提下显著提升检测性能。在 Microsoft COCO 基准数据集上的大量实验结果表明,ViDT 在现有完全基于 Transformer 的目标检测器中实现了最佳的平均精度(AP)与延迟(latency)权衡,其在大模型下的高可扩展性使其达到了 49.2 的 AP 值。相关代码与训练好的模型将开源发布于 https://github.com/naver-ai/vidt。