Command Palette

Search for a command to run...

16일 전

테스트 시기의 사전 훈련 데이터 재사용은 계산량을 곱하는 요인이다

Alex Fang Thomas Voice Ruoming Pang Ludwig Schmidt Tom Gunter

테스트 시기의 사전 훈련 데이터 재사용은 계산량을 곱하는 요인이다

초록

대규모 언어 모델은 방대한 사전 훈련 데이터셋에서 학습함으로써 점점 더 다양한 작업을 해결할 수 있는 능력을 습득한다. 그러나 연구자들이 이러한 데이터셋을 개선하기 위해 노력하고 있음에도 불구하고, 사전 훈련 과정이 데이터로부터 아이디어와 지식을 얼마나 효율적으로 추출하는지에 대한 이해에는 거의 관심이 없다. 본 연구에서는 사전 훈련 과정에서 데이터셋의 가치가 얼마나 남아 있는지를 정량화하기 위해 검색 증강 생성(retrieval-augmented generation)과 테스트 시 계산 자원(test-time compute)을 활용한다. 이를 통해 모델 규모가 증가함에 따라 이러한 현상이 어떻게 변화하는지를 분석한다. 결과적으로, 표준적이고 대부분 오픈소스화된 데이터셋에서 사전 훈련 후 검색을 수행하는 방식이 MMLU, Math-500, SimpleQA에서 의미 있는 정확도 향상을 가져오며, 데이터 오염 제거(decontamination) 후에도 이러한 성능 향상이 지속됨을 보여준다. 특히 MMLU에서는 사전 훈련만 수행하는 경우에 비해 검색이 약 5배에 달하는 컴퓨팅 자원의 효과를 발휘함을 관찰하였다. 또한, 검색된 컨텍스트를 해석하는 데 추가적인 테스트 시 계산 자원을 활용함으로써 성능을 further 향상시킬 수 있음을 입증하였으며, 공개된 LLaMA 3.1 8B 모델에서 MMLU 성능이 10%포인트 향상되는 결과를 도출하였다. 종합적으로 본 연구 결과는 현재의 사전 훈련 방법이 기존 사전 훈련 데이터셋 내에 존재하는 정보를 충분히 활용하지 못하고 있으며, 향후 성능 향상을 위한 여지가 여전히 크다는 점을 시사한다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
테스트 시기의 사전 훈련 데이터 재사용은 계산량을 곱하는 요인이다 | 연구 논문 | HyperAI초신경