
사전 훈련된 언어 모델은 다양한 언어 이해 작업에서 최고 수준의 성능을 달성하기 위해 미세조정(fine-tuning)이 가능하지만, 특히 데이터가 극히 제한된 상황(저데이터 환경)에서 이 과정의 동역학은 여전히 잘 이해되지 않고 있다. 왜 수백만 개의 파라미터를 가진 모델을 수백 또는 수천 개의 레이블이 있는 데이터셋에 대해 상대적으로 단순한 경사하강법(예: 강한 정규화 없이)을 사용해 조정할 수 있는가? 본 논문에서는 미세조정 과정을 내재 차원(intrinsic dimension)의 관점에서 분석함으로써 이 놀라운 현상을 설명할 수 있는 경험적이고 이론적인 통찰을 제공한다. 우리는 경험적으로 일반적으로 사용되는 사전 훈련된 모델들이 매우 낮은 내재 차원을 가짐을 보여주며, 이는 전체 파라미터 공간과 동등한 효과를 내는 저차원 재매개변수화(reparameterization)가 존재함을 의미한다. 예를 들어, 전체 공간으로 임의로 투영된 200개의 학습 가능한 파라미터만 최적화하여 RoBERTa 모델을 미세조정할 경우, MRPC 데이터셋에서 전체 파라미터 성능의 90%에 도달할 수 있음을 실험적으로 확인하였다. 더 나아가, 사전 훈련이 내재 차원을 암묵적으로 최소화한다는 점을 경험적으로 입증하였으며, 놀랍게도 고정된 사전 훈련 업데이트 횟수 후에는 더 큰 모델일수록 더 낮은 내재 차원을 가지는 경향이 있음을 발견하였다. 이는 대규모 모델의 극도로 뛰어난 성능을 부분적으로 설명해 줄 수 있다. 마지막으로, 내재 차원과 저차원 작업 표현(low-dimensional task representations), 압축 기반 일반화 경계(compression-based generalization bounds)를 연결함으로써 전체 파라미터 수에 의존하지 않는 내재 차원 기반의 일반화 경계를 제안한다.