11일 전
일반 대중을 위한 ImageNet-21K 사전 학습
Tal Ridnik, Emanuel Ben-Baruch, Asaf Noy, Lihi Zelnik-Manor

초록
ImageNet-1K은 컴퓨터 비전 작업을 위한 딥러닝 모델의 사전 훈련을 위한 주요 데이터셋으로 활용된다. 반면 ImageNet-21K는 더 크고 다양한 데이터셋임에도 불구하고, 복잡성, 접근성 낮음, 그리고 그 추가적 가치가 과소평가된다는 이유로 사전 훈련에 덜 자주 사용된다. 본 논문은 이러한 격차를 해소하고, 누구나 고품질의 효율적인 ImageNet-21K 사전 훈련을 이용할 수 있도록 하려는 것을 목표로 한다. 전용 전처리 단계, WordNet의 계층적 구조 활용, 그리고 새로운 훈련 방식인 의미적 소프트맥스(Semantic Softmax)를 통해, 다양한 모델이 수많은 데이터셋과 작업에서 ImageNet-21K 사전 훈련으로부터 큰 이점을 얻음을 보여준다. 이는 소형 모바일 중심 모델에도 해당된다. 또한, ViT 및 Mixer와 같은 주목받는 새로운 모델들에 대해서도 기존의 ImageNet-21K 사전 훈련 방식을 초월함을 입증한다. 제안하는 사전 훈련 파이프라인은 효율적이고 접근성이 뛰어나며, 공개된 데이터셋을 기반으로 최고 수준의 재현 가능 결과를 도출한다. 훈련 코드와 사전 훈련된 모델은 다음 링크에서 제공된다: https://github.com/Alibaba-MIIL/ImageNet21K