3달 전

부트스트랩 마스킹 자동에코더를 통한 비전 BERT 사전학습

Xiaoyi Dong, Jianmin Bao, Ting Zhang, Dongdong Chen, Weiming Zhang, Lu Yuan, Dong Chen, Fang Wen, Nenghai Yu
부트스트랩 마스킹 자동에코더를 통한 비전 BERT 사전학습
초록

우리는 비전 BERT 사전학습을 위한 새로운 접근법으로 부트스트랩된 마스킹 자동에코더(Bootstrapped Masked Autoencoders, BootMAE)를 제안한다. BootMAE는 기존의 마스킹 자동에코더(MAE)를 개선하기 위해 두 가지 핵심 설계를 도입한다. 첫째, 온라인 특징을 추가적인 BERT 예측 타겟으로 제공하는 모멘텀 인코더(momentum encoder)이며, 둘째, BERT 사전학습 과정에서 인코더가 타겟에 특화된 정보를 기억하는 부담을 줄이려는 타겟 인지 디코더(target-aware decoder)이다.첫 번째 설계는, 마스킹된 토큰에 대한 BERT 예측 타겟으로 사전학습된 MAE를 활용하여 특징을 추출하는 것이 더 높은 사전학습 성능을 달성할 수 있다는 관찰에서 비롯되었다. 이를 바탕으로 기존 MAE 인코더와 병렬로 모멘텀 인코더를 도입하여, 자신이 생성한 표현을 BERT 예측 타겟으로 활용함으로써 사전학습 성능을 부트스트랩한다.두 번째 설계에서는, 인코더로부터 직접 타겟에 특화된 정보(예: 마스킹되지 않은 패치의 픽셀 값)를 디코더에 제공함으로써 인코더가 타겟 관련 정보를 기억하는 부담을 완화한다. 이로 인해 인코더는 BERT 사전학습의 핵심 목적인 의미 모델링에 집중할 수 있으며, 예측 타겟과 관련된 마스킹되지 않은 토큰의 정보를 기억하는 데 필요한 능력을 낭비하지 않아도 된다.광범위한 실험을 통해 BootMAE는 ViT-B 백본을 사용할 때 ImageNet-1K에서 Top-1 정확도 84.2%를 달성하여, 동일한 사전학습 에포크 수에서 기존 MAE보다 +0.8% 향상된 성능을 보였다. 또한 ADE20K에서 세분화 분할 작업에서 mIoU가 +1.0 향상되었으며, COCO 데이터셋에서 객체 탐지 및 분할 작업에서 박스 AP는 +1.3, 마스크 AP는 +1.4 개선되었다. 코드는 https://github.com/LightDXY/BootMAE 에 공개되어 있다.