18일 전

AdaMAE: 마스크 자동 조정을 통한 마스크 자동인코더를 활용한 효율적인 시공간 학습

Wele Gedara Chaminda Bandara, Naman Patel, Ali Gholami, Mehdi Nikkhah, Motilal Agrawal, Vishal M. Patel
AdaMAE: 마스크 자동 조정을 통한 마스크 자동인코더를 활용한 효율적인 시공간 학습
초록

마스크된 오토인코더(Masked Autoencoders, MAEs)는 보이는 데이터의 토큰들로부터 마스크된 입력 데이터를 재구성함으로써 이미지, 텍스트, 오디오, 영상 등에 대한 일반화 가능한 표현을 학습한다. 기존의 영상용 MAE 접근 방식은 랜덤한 패치, 튜브 또는 프레임 기반 마스킹 전략을 사용하여 이러한 토큰을 선택한다. 본 논문에서는 엔드투엔드 학습이 가능한 적응형 마스킹 전략인 AdaMAE를 제안한다. 제안하는 적응형 마스킹 전략은 보조 샘플링 네트워크를 활용하여 시공간적 의미적 맥락을 기반으로 보이는 토큰을 샘플링한다. 이 네트워크는 시공간 패치 토큰들에 대한 범주형 분포를 추정하며, 재구성 오차의 기대값을 증가시키는 토큰들이 보상받고, 강화학습의 정책 그라디언트 알고리즘을 기반으로 보이는 토큰으로 선택된다. 우리는 AdaMAE가 시공간 정보가 높은 영역에서 더 많은 토큰을 샘플링함을 보여주며, 이로 인해 토큰의 95%를 마스크할 수 있게 되어 메모리 요구량을 낮추고 사전학습 속도를 향상시킬 수 있음을 입증한다. 또한 Something-Something v2(SSv2) 데이터셋에서의 제거 연구(ablation study)를 통해 제안한 적응형 샘플링 접근 방식의 유효성을 검증하였으며, ViT-Base 기반 모델과 800 에포크의 사전학습을 사용하여 SSv2와 Kinetics-400 행동 분류 데이터셋에서 각각 70.0% 및 81.7%의 top-1 정확도를 기록하며 최신 기술 수준의 성능을 달성하였다.

AdaMAE: 마스크 자동 조정을 통한 마스크 자동인코더를 활용한 효율적인 시공간 학습 | 최신 연구 논문 | HyperAI초신경