초기 학습 데이터 고갈 극복: 딥러닝 모델 훈련에 혁신적 합성 데이터 기술 등장
데이터학 기업 디톨로지AI는 웹 문서를 재구성해 고도화된 합성 데이터를 생성하는 새로운 프레임워크 ‘BeyondWeb’을 발표했다. 이 기술은 대규모 언어모델 훈련에 필요한 고품질 데이터 부족 문제를 해결하기 위해 개발됐으며, 기존 웹 데이터보다 정보 밀도를 높이고 교육적 톤을 강화해 훈련 효율을 극대화한다. 연구 결과, 8B 파라미터 모델 기준으로 허깅페이스의 코스모페디아와 비교해 정확도가 5.1%p 향상되었고, 네이피어의 네모트론-CC보다도 2.6%p 높았다. 특히 3B 모델이 BeyondWeb 데이터로 훈련된 결과, 8B 모델이 코스모페디아로 학습한 성능을 초월하는 등 훈련 속도도 7.7배 빨랐다. 660억 토큰만으로도 64%의 정확도를 달성해 기존 데이터셋 대비 7.7배 빠른 성과를 보였다. 연구팀은 합성 데이터의 다양성과 대화형 텍스트의 부족(2.7% 미만)이 핵심 과제임을 지적하며, 소형 모델(3B)이 고품질 데이터 생성에 충분히 효과적임을 확인했다. 1B에서 3B로 확장 시 품질이 향상되나, 8B 이상에서는 개선 폭이 둔화된다. 모델 종류보다 재구성 방식이 더 중요하다는 점도 밝혀졌다. BeyondWeb는 아르시AI의 4.5B 모델 훈련에 이미 활용됐으며, 대규모 토큰 처리를 위한 스케일링 파이프라인이 구축됐다. 마이크로소프트의 피파-4, 네이피어의 네모트론-4, 오픈AI의 GPT-5 등 주요 기업들이 합성 데이터를 활용해 모델 성능을 끌어올리고 있으며, 데이터 품질과 학습 목적 중심의 설계가 핵심이라는 점이 강조되고 있다.