12일 전

픽셀에서의 생성형 사전학습

{Mark Chen, Jeff Wu, Rewon Child, Ilya Sutskever, David Luan, Alec Radford, Heewoo Jun, Prafulla Dhariwal}
픽셀에서의 생성형 사전학습
초록

자연어에 대한 비지도 표현 학습의 최근 진전에 영감을 받아, 유사한 모델이 이미지에 대해 유용한 표현을 학습할 수 있는지 조사하였다. 우리는 2차원 입력 구조에 대한 지식을 포함하지 않고, 시퀀스 형태의 트랜스포머를 사용하여 픽셀을 자동 회귀적으로 예측하도록 훈련하였다. 레이블이 없는 저해상도 ImageNet에서 훈련된 결과, GPT-2 규모의 모델이 선형 탐색(linear probing), 미세 조정(fine-tuning), 그리고 낮은 데이터 분류 성능 측정 기준에서 강력한 이미지 표현을 학습하는 것으로 나타났다. CIFAR-10에서 선형 탐색을 사용할 경우 96.3%의 정확도를 달성하였으며, 이는 감독 학습 기반의 Wide ResNet보다 뛰어난 성능을 보였다. 전체 미세 조정을 수행한 경우 99.0%의 정확도를 기록하여 최고 수준의 감독 기반 사전 훈련 모델과 동등한 성능을 나타냈다. 또한 ImageNet과 웹 이미지의 혼합 데이터셋에서 훈련된 더 큰 모델은 ImageNet에서 자기지도 학습 기반 벤치마크와 경쟁 가능한 성능을 보였으며, 우리의 특징에 대한 선형 탐색에서 상위 1위 정확도( top-1 accuracy)로 72.0%를 기록하였다.

픽셀에서의 생성형 사전학습 | 최신 연구 논문 | HyperAI초신경