19일 전
당신은 하나의 시퀀스만 봐야 합니다: 객체 탐지의 관점에서 Transformer 재고하기
Yuxin Fang, Bencheng Liao, Xinggang Wang, Jiemin Fang, Jiyang Qi, Rui Wu, Jianwei Niu, Wenyu Liu

초록
2D 객체 및 영역 수준의 인식을 순서-순서(sequence-to-sequence) 관점에서, 2D 공간 구조에 대한 최소한의 지식만을 가진 채로 Transformer가 수행할 수 있을까? 이 질문에 답하기 위해, 우리는 순수한 비전 Transformer(Vision Transformer) 기반으로, 가능한 한 최소한의 수정, 영역 사전 지식(region priors), 그리고 타겟 작업의 인덕티브 바이어스(inductive biases)를 갖춘 객체 탐지 모델 시리즈인 You Only Look at One Sequence(YOLOS)를 제안한다. 우리는 ImageNet-1k 중간 규모 데이터셋으로 사전 학습한 YOLOS 모델이 이미 도전적인 COCO 객체 탐지 벤치마크에서 매우 경쟁력 있는 성능을 달성할 수 있음을 발견했다. 예를 들어, BERT-Base 아키텍처에서 직접 가져온 YOLOS-Base는 COCO 검증 세트에서 42.0 box AP를 달성한다. 또한 YOLOS를 통해 현재 Transformer 기반 모델의 사전 학습 방식과 모델 확장 전략이 시각 영역에 미치는 영향과 한계에 대해 논의한다. 코드와 사전 학습된 모델은 https://github.com/hustvl/YOLOS에서 제공된다.