HyperAIHyperAI

Command Palette

Search for a command to run...

你只需观察一个序列:通过目标检测重新思考视觉中的Transformer

Yuxin Fang Bencheng Liao Xinggang Wang Jiemin Fang Jiyang Qi Rui Wu Jianwei Niu Wenyu Liu

摘要

Transformer能否在几乎不依赖二维空间结构先验知识的前提下,仅从纯序列到序列的视角实现二维物体与区域级别的识别?为回答这一问题,我们提出了 You Only Look at One Sequence(YOLOS),一系列基于原始视觉Transformer(Vision Transformer)架构、经过最少修改、不依赖区域先验信息以及目标任务归纳偏置的物体检测模型。我们发现,仅在中等规模的ImageNet-1k数据集上预训练的YOLOS模型,已在具有挑战性的COCO物体检测基准上展现出相当出色的性能:例如,直接采用BERT-Base架构构建的YOLOS-Base模型,在COCO验证集上即可达到42.0的框AP(box AP)成绩。此外,我们还通过YOLOS探讨了当前视觉Transformer预训练方案及模型扩展策略的成效与局限性。相关代码与预训练模型已开源,地址为:https://github.com/hustvl/YOLOS


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供