Command Palette
Search for a command to run...
Alex Fang Thomas Voice Ruoming Pang Ludwig Schmidt Tom Gunter

초록
대규모 언어 모델은 방대한 사전 훈련 데이터셋에서 학습함으로써 점점 더 다양한 작업을 해결할 수 있는 능력을 습득한다. 그러나 연구자들이 이러한 데이터셋을 개선하기 위해 노력하고 있음에도 불구하고, 사전 훈련 과정이 데이터로부터 아이디어와 지식을 얼마나 효율적으로 추출하는지에 대한 이해에는 거의 관심이 없다. 본 연구에서는 사전 훈련 과정에서 데이터셋의 가치가 얼마나 남아 있는지를 정량화하기 위해 검색 증강 생성(retrieval-augmented generation)과 테스트 시 계산 자원(test-time compute)을 활용한다. 이를 통해 모델 규모가 증가함에 따라 이러한 현상이 어떻게 변화하는지를 분석한다. 결과적으로, 표준적이고 대부분 오픈소스화된 데이터셋에서 사전 훈련 후 검색을 수행하는 방식이 MMLU, Math-500, SimpleQA에서 의미 있는 정확도 향상을 가져오며, 데이터 오염 제거(decontamination) 후에도 이러한 성능 향상이 지속됨을 보여준다. 특히 MMLU에서는 사전 훈련만 수행하는 경우에 비해 검색이 약 5배에 달하는 컴퓨팅 자원의 효과를 발휘함을 관찰하였다. 또한, 검색된 컨텍스트를 해석하는 데 추가적인 테스트 시 계산 자원을 활용함으로써 성능을 further 향상시킬 수 있음을 입증하였으며, 공개된 LLaMA 3.1 8B 모델에서 MMLU 성능이 10%포인트 향상되는 결과를 도출하였다. 종합적으로 본 연구 결과는 현재의 사전 훈련 방법이 기존 사전 훈련 데이터셋 내에 존재하는 정보를 충분히 활용하지 못하고 있으며, 향후 성능 향상을 위한 여지가 여전히 크다는 점을 시사한다.