2달 전

비전 트랜스포머를 이용한 간단한 개방형 어휘 객체 검출

Minderer, Matthias ; Gritsenko, Alexey ; Stone, Austin ; Neumann, Maxim ; Weissenborn, Dirk ; Dosovitskiy, Alexey ; Mahendran, Aravindh ; Arnab, Anurag ; Dehghani, Mostafa ; Shen, Zhuoran ; Wang, Xiao ; Zhai, Xiaohua ; Kipf, Thomas ; Houlsby, Neil
비전 트랜스포머를 이용한 간단한 개방형 어휘 객체 검출
초록

간단한 아키텍처와 대규모 사전 학습을 결합함으로써 이미지 분류에서 큰 개선이 이루어졌습니다. 객체 검출의 경우, 사전 학습과 확장 접근법이 덜 확립되어 있으며, 특히 훈련 데이터가 상대적으로 부족한 긴 꼬리(long-tailed) 및 개방형 어휘(open-vocabulary) 환경에서는 더욱 그렇습니다. 본 논문에서는 이러한 환경에서 개방형 어휘 객체 검출로 이미지-텍스트 모델을 전송하는 강력한 방법을 제안합니다. 우리는 최소한의 수정만을 가진 표준 비전 트랜스포머(Vision Transformer) 아키텍처, 대조적 이미지-텍스트 사전 학습, 그리고 엔드투엔드(end-to-end) 검출 미세 조정(fine-tuning)을 사용합니다. 이 설정의 확장 특성에 대한 분석 결과, 이미지 수준의 사전 학습과 모델 크기를 증가시키면 후속 검출 작업에서 일관된 개선 효과를 얻을 수 있음을 보여줍니다. 우리는 제로샷(zero-shot) 텍스트 조건부 객체 검출과 원샷(one-shot) 이미지 조건부 객체 검출에서 매우 우수한 성능을 달성하기 위해 필요한 적응 전략과 정규화(regularization) 방법들을 제공합니다. 코드와 모델은 GitHub에서 이용 가능합니다.

비전 트랜스포머를 이용한 간단한 개방형 어휘 객체 검출 | 최신 연구 논문 | HyperAI초신경