19 天前

你只需观察一个序列:通过目标检测重新思考视觉中的Transformer

Yuxin Fang, Bencheng Liao, Xinggang Wang, Jiemin Fang, Jiyang Qi, Rui Wu, Jianwei Niu, Wenyu Liu
你只需观察一个序列:通过目标检测重新思考视觉中的Transformer
摘要

Transformer能否在几乎不依赖二维空间结构先验知识的前提下,仅从纯序列到序列的视角实现二维物体与区域级别的识别?为回答这一问题,我们提出了 You Only Look at One Sequence(YOLOS),一系列基于原始视觉Transformer(Vision Transformer)架构、经过最少修改、不依赖区域先验信息以及目标任务归纳偏置的物体检测模型。我们发现,仅在中等规模的ImageNet-1k数据集上预训练的YOLOS模型,已在具有挑战性的COCO物体检测基准上展现出相当出色的性能:例如,直接采用BERT-Base架构构建的YOLOS-Base模型,在COCO验证集上即可达到42.0的框AP(box AP)成绩。此外,我们还通过YOLOS探讨了当前视觉Transformer预训练方案及模型扩展策略的成效与局限性。相关代码与预训练模型已开源,地址为:https://github.com/hustvl/YOLOS。

你只需观察一个序列:通过目标检测重新思考视觉中的Transformer | 论文 | HyperAI超神经