17일 전

EVA: 대규모에서 마스크된 시각적 표현 학습의 한계 탐구

Yuxin Fang, Wen Wang, Binhui Xie, Quan Sun, Ledell Wu, Xinggang Wang, Tiejun Huang, Xinlong Wang, Yue Cao
EVA: 대규모에서 마스크된 시각적 표현 학습의 한계 탐구
초록

우리는 공개된 데이터만을 사용하여 대규모 시각 표현의 한계를 탐구하기 위해 EVA, 즉 시각 중심의 기초 모델을 발표합니다. EVA는 가시적인 이미지 패치를 조건으로 하여 마스킹된 이미지-텍스트로 정렬된 시각 특징을 재구성하도록 단순한 ViT(Vision Transformer)를 사전 훈련한 모델입니다. 이 사전 훈련 과제를 통해 EVA는 10억 파라미터 규모로 효율적으로 확장할 수 있으며, 이미지 인식, 영상 동작 인식, 객체 탐지, 인스턴스 세그멘테이션, 세분적 세그멘테이션 등 다양한 주요 시각 작업에서 강력한 성능을 기록하며, 복잡한 지도 학습 없이도 뛰어난 결과를 달성합니다. 또한, EVA의 확장 과정에서 양적 변화가 전이 학습 성능에 질적 변화를 초래하는 현상을 관찰하였으며, 이는 다른 모델에서는 관측되지 않는 특징입니다. 예를 들어, EVA는 도전적인 대규모 어휘 인스턴스 세그멘테이션 작업에서 큰 도약을 이뤘습니다. EVA는 1,000개 이상의 카테고리가 포함된 LVISv1.0 데이터셋과 80개 카테고리만 있는 COCO 데이터셋에서 거의 동등한 최첨단 성능을 달성했습니다. 순수한 시각 인코더를 넘어서, EVA는 이미지와 텍스트를 연결하는 시각 중심의 다중모달 핵심 역할을 수행할 수 있습니다. EVA에서 초기화된 거대한 CLIP의 시각 타워는 훈련을 크게 안정화시키며, 더 적은 샘플과 더 적은 계산 자원으로도 초기화 없이 훈련한 대비 모델보다 뛰어난 성능을 발휘함으로써, 다중모달 기초 모델의 비용이 큰 훈련 과정을 확장하고 가속화하는 새로운 방향을 제시합니다. 향후 연구를 지원하기 위해, 모든 코드와 모델을 https://github.com/baaivision/EVA 에 공개합니다.