16일 전

대조적 튜닝: 마스킹된 자동에코더가 잊어버리는 데 도움이 되는 소량의 지원

Johannes Lehner, Benedikt Alkin, Andreas Fürst, Elisabeth Rumetshofer, Lukas Miklautz, Sepp Hochreiter
대조적 튜닝: 마스킹된 자동에코더가 잊어버리는 데 도움이 되는 소량의 지원
초록

마스크 이미지 모델링(Masked Image Modeling, MIM) 기법, 예를 들어 마스크 자동부호화기(Masked Autoencoders, MAE)는 입력 데이터에 대한 풍부한 표현을 효율적으로 학습할 수 있다. 그러나 이러한 모델을 하류 작업에 적응시키기 위해서는 레이블이 풍부한 데이터가 필요하다. 왜냐하면 풍부한 특징들이 객체뿐만 아니라 관련성이 낮은 이미지 배경까지도 함께 코딩하기 때문이다. 반면에 인스턴스 구분(Instance Discrimination, ID) 기법은 객체에 집중한다. 본 연구에서는 MIM의 효율성과 확장성을 ID의 특성과 결합하여, 대량의 레이블 데이터가 부족한 상황에서도 하류 분류 작업을 수행할 수 있는 방법을 탐구한다. 이를 위해 우리는 사전 학습된 MAE의 최상위 레이어에서 추상화를 유도하기 위해 근접 이웃 대조 학습(Nearest Neighbor Contrastive Learning, NNCLR) 목적함수의 은닉 클러스터링 특성을 활용하는 순차적 접근법인 마스크 자동부호화기 대조 조정(Masked Autoencoder Contrastive Tuning, MAE-CT)을 제안한다. MAE-CT는 어떠한 레이블도 사용하지 않고, 풍부한 특징들이 객체의 의미적 클러스터를 형성하도록 조정한다. 특히 MAE-CT는 수작업으로 설계된 증강 기법에 의존하지 않으며, 단지 최소한의 증강(자르기 및 반전)만으로도 종종 최고의 성능을 달성한다. 또한 MAE 재학습 대비 최대 10%의 계산량 추가 비용만을 요구하여 계산 효율성이 뛰어나다. 대규모 및 초대규모 비전 트랜스포머(Vision Transformer, ViT) 모델에 적용했을 때, MAE-CT는 선형 탐색(linear probing), k-NN, 저샷 분류 정확도, 그리고 비지도 클러스터링 정확도에서 이전의 ImageNet 기반 자기지도 학습 방법들을 능가한다. ViT-H/16 기반의 MAE-CT는 선형 탐색에서 82.2%의 새로운 최고 성능을 기록하며, 새로운 최상의 성과를 달성했다.

대조적 튜닝: 마스킹된 자동에코더가 잊어버리는 데 도움이 되는 소량의 지원 | 최신 연구 논문 | HyperAI초신경