테스트 시 효율적으로 학습하기: LLM의 주동적 피니어 튜닝

최근 언어 모델의 미세조정에 대한 노력은 대개 대규모 데이터셋에서 가장 가까운 이웃(Nearest Neighbors) 검색을 활용한 자동 데이터 선택에 의존하고 있다. 그러나 본 연구에서는 이 접근 방식이 중복된 데이터를 선호하여 효과를 제한하거나 오히려 성능을 저하시킬 수 있음을 이론적으로 입증한다. 이를 해결하기 위해, 프롬프트에 대한 모델 응답에 대한 불확실성을 줄이기 위해 설계된 SIFT라는 데이터 선택 알고리즘을 제안한다. SIFT는 검색 기반 접근과 능동 학습(active learning)의 아이디어를 통합한 것으로, 정보 중복이 존재하는 상황에서도 효과적으로 작동한다. 기존의 가장 가까운 이웃 검색은 정보 중복 시 성능이 저하되는 반면, SIFT는 정보 중복을 고려하여 선택된 예시들의 전반적인 정보 이득을 최적화한다. 본 연구에서는 Pile 데이터셋을 대상으로 프롬프트별 언어 모델링에 대한 테스트 시점 미세조정(test-time fine-tuning)에 초점을 맞춰 평가를 수행하였으며, SIFT가 가장 가까운 이웃 검색보다 일관되게 우수한 성능을 보이며, 계산 오버헤드는 최소화됨을 확인하였다. 또한, 제안하는 불확실성 추정이 테스트 시점 미세조정의 성능 향상을 예측할 수 있음을 보이며, 이를 바탕으로 실현된 성능 향상에 비례해 테스트 시점 컴퓨팅 자원을 투입하는 적응형 알고리즘을 개발하였다. 본 연구는 가장 가까운 이웃 검색의 즉시 대체가 가능한 $\texttt{activeft}$ (Active Fine-Tuning) 라이브러리를 공개한다.