11 天前

用于视觉目标检测的集成迁移预训练Transformer编码器-解码器

Feng Liu, Xiaosong Zhang, Zhiliang Peng, Zonghao Guo, Fang Wan, Xiangyang Ji, Qixiang Ye
用于视觉目标检测的集成迁移预训练Transformer编码器-解码器
摘要

现代目标检测器充分利用了在大规模数据集上预训练的主干网络。然而,除了主干网络之外,检测头(detector head)和特征金字塔网络(Feature Pyramid Network, FPN)等其他组件仍通常从零开始训练,这限制了表征模型潜力的充分挖掘。在本研究中,我们提出将预训练的Transformer编码器-解码器(imTED)整体迁移至检测器中,构建一条“完全预训练”的特征提取路径,从而最大化检测器的泛化能力。与基线检测器相比,imTED的核心差异体现在两个方面:(1)将预训练的Transformer解码器迁移至检测头,并移除特征提取路径中随机初始化的FPN;(2)引入多尺度特征调制器(Multi-scale Feature Modulator, MFM),以增强模型对不同尺度特征的适应能力。上述设计不仅显著减少了随机初始化参数的数量,还实现了检测训练与表征学习的有意统一。在MS COCO目标检测数据集上的实验表明,imTED在各项指标上始终优于现有方法,平均精度(AP)提升约2.4。在不依赖复杂技巧(bells and whistles)的前提下,imTED将少样本目标检测的性能提升至新的SOTA水平,最高提升达7.6 AP。代码已开源,地址为:https://github.com/LiewFeng/imTED。

用于视觉目标检测的集成迁移预训练Transformer编码器-解码器 | 最新论文 | HyperAI超神经