GiT: 보편적 언어 인터페이스를 통한 일반화된 비전 트랜스포머 접근

이 논문은 단순하면서도 효과적인 프레임워크인 GiT(Generic Image Transformer)을 제안한다. 이 프레임워크는 순수한 ViT(Vision Transformer)만을 사용하여 다양한 시각 작업에 동시에 적용 가능한 구조를 제공한다. 대규모 언어 모델(LLM)에서 널리 사용되는 다층 트랜스포머 아키텍처(예: GPT)의 보편성에 착안하여, 이를 강력한 시각 기반 모델(VFM, Vision Foundation Model)로 확장하고자 했다. 그러나 언어 모델링과 달리, 시각 작업은 보통 감지 작업을 위한 경계 상자 헤드나 세그멘테이션을 위한 픽셀 디코더와 같은 특정 모듈을 필요로 하며, 이는 강력한 다층 트랜스포머 아키텍처의 시각 분야 적용을 크게 방해한다. 이를 해결하기 위해, 다양한 시각 작업을 효율적으로 통합할 수 있도록 하는 보편적인 언어 인터페이스를 설계하였다. 이 인터페이스는 순차적 추론(autoregressive decoding)을 성공적으로 수행할 수 있도록 하여, 이미지 수준 이해(예: 캡셔닝), 희소 인지(예: 감지), 밀도 예측(예: 세그멘테이션)에 이르기까지 다양한 시각 작업을 통합적으로 처리할 수 있다. 위의 설계를 기반으로, 전체 모델은 특별한 추가 모듈 없이 오직 ViT만으로 구성되어 있어 놀라운 아키텍처의 단순화를 실현하였다. GiT는 다중 작업 시각 모델로서, 태스크에 특화된 미세조정 없이 다섯 가지 대표적인 벤치마크에서 공동으로 훈련된다. 흥미롭게도, 본 연구에서 제안한 GiT는 일반화 성능 측면에서 새로운 기준을 수립하였으며, 서로 다른 작업 간의 상호 보완적 성능 향상을 유도하여, 개별적으로 훈련하는 경우보다 상당한 성능 향상을 달성하였다. 이는 대규모 언어 모델(LLM)에서 관찰된 현상과 유사하다. 또한 27개의 추가 데이터셋을 활용하여 훈련을 확장함으로써, GiT는 다양한 작업에 대해 강력한 제로샷(Zero-shot) 성능을 달성하였다. 단순한 설계 덕분에, 이 패러다임은 시각과 언어 간의 아키텍처 격차를 좁히는 데 큰 가능성을 지닌다. 코드와 모델은 \url{https://github.com/Haiyang-W/GiT}에서 공개될 예정이다.