2일 전

BeyondWeb: 트릴리언 규모 사전 훈련을 위한 합성 데이터 확장에서 얻은 교훈

Pratyush Maini, Vineeth Dorna, Parth Doshi, Aldo Carranza, Fan Pan, Jack Urbanek, Paul Burstein, Alex Fang, Alvin Deng, Amro Abbas, Brett Larsen, Cody Blakeney, Charvi Bannur, Christina Baek, Darren Teh, David Schwab, Haakon Mongstad, Haoli Yin, Josh Wills, Kaleigh Mentzer, Luke Merrick, Ricardo Monti, Rishabh Adiga, Siddharth Joshi, Spandan Das, Zhengping Wang, Bogdan Gaza, Ari Morcos, Matthew Leavitt
BeyondWeb: 트릴리언 규모 사전 훈련을 위한 합성 데이터 확장에서 얻은 교훈
초록

최근 대규모 언어 모델(LLM) 사전 학습 기술의 발전은 단순히 데이터 양을 늘리는 것만으로는 결국 한계에 도달하며, ‘데이터 벽(Data Wall)’에 부딪히게 된다는 점을 보여주었다. 이에 대응하여, 사전 학습용으로 합성 데이터를 활용하는 방식이 성능 한계를 넘어서는 데 있어 매우 유망한 패러다임으로 부상하고 있다. 그러나 합성 데이터 품질에 영향을 미치는 요인들은 여전히 잘 이해되지 않고 있다. 본 연구에서는 사전 학습용 고품질 합성 데이터를 생성하는 프레임워크인 BeyondWeb을 제안한다. BeyondWeb은 기존 웹 규모 데이터셋의 능력을 크게 확장하며, 14개의 벤치마크 평가를 종합적으로 평가했을 때, 최첨단 합성 사전 학습 데이터셋인 Cosmopedia 및 Nemotron-CC의 고품질 합성 서브셋(Nemotron-Synth)보다 각각 최대 5.1퍼센트 포인트(pp)와 2.6pp의 성능 향상을 달성한다. 또한 오픈 웹 데이터 대비 최대 7.7배 빠른 학습 속도, Nemotron-Synth 대비 2.7배 빠른 학습 속도를 제공한다. 놀랍게도, BeyondWeb에서 1800억 토큰에 걸쳐 훈련된 30억 파라미터 모델이 Cosmopedia에서 동일한 토큰 예산으로 훈련된 80억 파라미터 모델보다 뛰어난 성능을 보였다. 본 연구는 BeyondWeb을 통해 합성 데이터 사전 학습에 대한 몇 가지 통찰을 제시한다. 즉, 합성 데이터의 성능 향상 요인은 무엇인지, 어떤 데이터를 어떻게 재작성해야 하는지, 그리고 모델 크기와 모델 아키텍처의 종류가 데이터 품질에 미치는 영향은 무엇인지 등이다. 종합적으로 본 연구는 고품질 합성 사전 학습 데이터를 생성하기 위한 ‘만능 해법’이 존재하지 않음을 보여준다. 최상의 결과를 얻기 위해서는 여러 요인을 동시에 최적화해야 하며, 이는 엄격한 과학적 접근과 실무적 전문성 모두가 요구되는 도전적인 과제이다. 단순한 접근 방식은 미미한 성능 향상만을 가져올 수 있으며, 때로는 큰 비용을 수반할 수 있으나, 철저히 실행된 방법론은 획기적인 성능 향상을 가능하게 하며, BeyondWeb이 이를 잘 보여주고 있다.

BeyondWeb: 트릴리언 규모 사전 훈련을 위한 합성 데이터 확장에서 얻은 교훈 | 최신 연구 논문 | HyperAI초신경