부트스트랩 마스킹 자동에코더를 통한 비전 BERT 사전학습

우리는 비전 BERT 사전학습을 위한 새로운 접근법으로 부트스트랩된 마스킹 자동에코더(Bootstrapped Masked Autoencoders, BootMAE)를 제안한다. BootMAE는 기존의 마스킹 자동에코더(MAE)를 개선하기 위해 두 가지 핵심 설계를 도입한다. 첫째, 온라인 특징을 추가적인 BERT 예측 타겟으로 제공하는 모멘텀 인코더(momentum encoder)이며, 둘째, BERT 사전학습 과정에서 인코더가 타겟에 특화된 정보를 기억하는 부담을 줄이려는 타겟 인지 디코더(target-aware decoder)이다.첫 번째 설계는, 마스킹된 토큰에 대한 BERT 예측 타겟으로 사전학습된 MAE를 활용하여 특징을 추출하는 것이 더 높은 사전학습 성능을 달성할 수 있다는 관찰에서 비롯되었다. 이를 바탕으로 기존 MAE 인코더와 병렬로 모멘텀 인코더를 도입하여, 자신이 생성한 표현을 BERT 예측 타겟으로 활용함으로써 사전학습 성능을 부트스트랩한다.두 번째 설계에서는, 인코더로부터 직접 타겟에 특화된 정보(예: 마스킹되지 않은 패치의 픽셀 값)를 디코더에 제공함으로써 인코더가 타겟 관련 정보를 기억하는 부담을 완화한다. 이로 인해 인코더는 BERT 사전학습의 핵심 목적인 의미 모델링에 집중할 수 있으며, 예측 타겟과 관련된 마스킹되지 않은 토큰의 정보를 기억하는 데 필요한 능력을 낭비하지 않아도 된다.광범위한 실험을 통해 BootMAE는 ViT-B 백본을 사용할 때 ImageNet-1K에서 Top-1 정확도 84.2%를 달성하여, 동일한 사전학습 에포크 수에서 기존 MAE보다 +0.8% 향상된 성능을 보였다. 또한 ADE20K에서 세분화 분할 작업에서 mIoU가 +1.0 향상되었으며, COCO 데이터셋에서 객체 탐지 및 분할 작업에서 박스 AP는 +1.3, 마스크 AP는 +1.4 개선되었다. 코드는 https://github.com/LightDXY/BootMAE 에 공개되어 있다.