7일 전

시각 트랜스포머 어댑터를 통한 밀도 예측

Zhe Chen, Yuchen Duan, Wenhai Wang, Junjun He, Tong Lu, Jifeng Dai, Yu Qiao
시각 트랜스포머 어댑터를 통한 밀도 예측
초록

이 연구는 비전 트랜스포머(Vision Transformer, ViT)를 위한 간단하면서도 강력한 밀집 예측 작업 어댑터를 탐구한다. 최근의 발전된 변종들은 아키텍처 내에 비전 특화의 유도 편향(inductive biases)을 도입하지만, 순수한 ViT는 약한 사전 가정(prior assumptions)으로 인해 밀집 예측 작업에서 성능이 열등하다는 문제를 겪는다. 이 문제를 해결하기 위해 우리는 순수한 ViT가 비전 특화 트랜스포머와 비교 가능한 성능을 달성할 수 있도록 하는 ViT-Adapter를 제안한다. 구체적으로, 본 연구의 프레임워크에서 백본(backbone)은 대규모 다중 모달 데이터로부터 강력한 표현을 학습할 수 있는 순수한 ViT이다. 하류 작업으로 전이할 때, 사전 훈련 없이 사용 가능한 어댑터를 도입하여 이미지 관련 유도 편향을 모델에 삽입함으로써, 해당 작업에 적합한 구조를 갖추게 한다. 우리는 객체 탐지, 인스턴스 세그멘테이션, 세그멘테이션 등 다양한 밀집 예측 작업에서 ViT-Adapter의 성능을 검증하였다. 특히, 추가 탐지 데이터를 사용하지 않고도 ViT-Adapter-L은 COCO test-dev에서 60.9의 박스 AP(box AP)와 53.0의 마스크 AP(mask AP)를 달성하여 최신 기준(SOTA) 성능을 기록하였다. 우리는 ViT-Adapter가 비전 특화 트랜스포머의 대안이 될 수 있기를 기대하며, 향후 연구에 기여할 수 있기를 바란다. 코드와 모델은 https://github.com/czczup/ViT-Adapter에서 공개될 예정이다.

시각 트랜스포머 어댑터를 통한 밀도 예측 | 최신 연구 논문 | HyperAI초신경