17일 전
시각적 작업 적응 벤치마크를 통한 표현 학습에 관한 대규모 연구
Xiaohua Zhai, Joan Puigcerver, Alexander Kolesnikov, Pierre Ruyssen, Carlos Riquelme, Mario Lucic, Josip Djolonga, Andre Susano Pinto, Maxim Neumann, Alexey Dosovitskiy, Lucas Beyer, Olivier Bachem, Michael Tschannen, Marcin Michalski, Olivier Bousquet, Sylvain Gelly, Neil Houlsby

초록
표현 학습은 비용이 많이 드는 레이블링된 데이터셋 없이도 비전 작업의 장꼬리(long tail) 영역에 깊이 있는 학습을 가능하게 할 것으로 기대된다. 그러나 일반적인 시각 표현에 대한 통합된 평가 기준이 부재함으로써 발전이 저해되고 있다. 기존의 대표적인 평가 프로토콜은 종종 제한적(선형 분류), 다양성 부족(예: ImageNet, CIFAR, Pascal-VOC), 또는 표현 품질과 약한 관련성(예: ELBO, 재구성 오차)을 보인다. 본 연구에서는 다양한 미리 보지 못한 작업에 소량의 예시로 빠르게 적응할 수 있는 표현이 우수한 표현이라고 정의하는 '시각 작업 적응 벤치마크(VTAB)'를 제안한다. VTAB를 활용하여 수많은 대표적인 공개된 표현 학습 알고리즘에 대한 대규모 연구를 수행하였다. 아키텍처와 튜닝 예산과 같은 혼동 변수를 철저히 통제함으로써, 다음과 같은 핵심 질문들을 탐구하였다: ImageNet 기반 표현은 표준 자연 데이터셋 외의 상황에서 얼마나 효과적인가? 생성적 모델과 판별적 모델을 통해 학습된 표현은 각각 어떤 차이를 보이는가? 자기지도 학습(self-supervision)은 레이블을 얼마나 대체할 수 있는가? 그리고 우리는 일반적인 시각 표현에 얼마나 가까워졌는가?