19 天前

你只需观察一个序列：通过目标检测重新思考视觉中的Transformer

Yuxin Fang, Bencheng Liao, Xinggang Wang, Jiemin Fang, Jiyang Qi, Rui Wu, Jianwei Niu, Wenyu Liu

摘要

Transformer能否在几乎不依赖二维空间结构先验知识的前提下，仅从纯序列到序列的视角实现二维物体与区域级别的识别？为回答这一问题，我们提出了 You Only Look at One Sequence（YOLOS），一系列基于原始视觉Transformer（Vision Transformer）架构、经过最少修改、不依赖区域先验信息以及目标任务归纳偏置的物体检测模型。我们发现，仅在中等规模的ImageNet-1k数据集上预训练的YOLOS模型，已在具有挑战性的COCO物体检测基准上展现出相当出色的性能：例如，直接采用BERT-Base架构构建的YOLOS-Base模型，在COCO验证集上即可达到42.0的框AP（box AP）成绩。此外，我们还通过YOLOS探讨了当前视觉Transformer预训练方案及模型扩展策略的成效与局限性。相关代码与预训练模型已开源，地址为：https://github.com/hustvl/YOLOS。