
우리는 이미지 트랜스포머 기반의 양방향 인코더 표현 모델인 BEiT(Bidirectional Encoder representation from Image Transformers)를 소개한다. 자연어 처리 분야에서 개발된 BERT에 영감을 받아, 시각 트랜스포머 모델을 사전 훈련하기 위해 마스킹된 이미지 모델링 작업을 제안한다. 구체적으로, 사전 훈련 과정에서 각 이미지에는 두 가지 형태의 표현이 존재한다. 즉, 이미지 패치(예: 16×16 픽셀 단위)와 시각 토큰(즉, 이산적 토큰)이다. 먼저 원본 이미지를 시각 토큰으로 변환한다. 그 후, 일부 이미지 패치를 무작위로 마스킹한 후, 이를 기반 트랜스포머에 입력한다. 사전 훈련의 목적은 손상된 이미지 패치를 기반으로 원래의 시각 토큰을 복원하는 것이다. BEiT를 사전 훈련한 후, 사전 훈련된 인코더 위에 작업 전용 레이어를 추가하여 직접 하류 작업에 대해 미세 조정(fine-tuning)한다. 이미지 분류 및 세그멘테이션에 대한 실험 결과에서, 기존 사전 훈련 방법과 경쟁 가능한 성능을 달성함을 확인하였다. 예를 들어, 기준 크기(BEiT-base) 모델은 ImageNet-1K에서 83.2%의 top-1 정확도를 기록하며, 동일한 설정에서 스크래치(From-scratch)로 훈련한 DeiT(81.8%)보다 뚜렷한 성능 우위를 보였다. 더불어, 대규모(BEiT-large) 모델은 ImageNet-1K 데이터셋만을 사용해도 86.3%의 정확도를 달성하며, ImageNet-22K에서 감독 학습을 통해 사전 훈련된 ViT-L(85.2%)보다 뛰어난 성능을 보였다. 코드 및 사전 훈련된 모델은 https://aka.ms/beit 에서 공개되어 있다.