GPT-4o를 골드 스탠다드로 삼아: LLM 전처리 데이터를 필터링하기 위한 확장 가능하고 일반적인 접근법

대규모 언어 모델은 방대한 양의 고품질 학습 데이터를 필요로 하지만, 웹 규모 데이터셋에 대한 효과적인 필터링은 여전히 큰 도전 과제이다. 본 논문은 GPT-4o가 고품질 학습 데이터를 식별하는 데 놀라울 정도로 효과적임을 보여주지만, 그 높은 비용으로 인해 웹 규모에서는 실용적이지 않다는 점을 지적한다. 이를 해결하기 위해 우리는 GPT-4o의 정확도를 1% 미만의 비용으로 달성할 수 있는 경량 대안인 SIEVE를 제안한다. SIEVE는 하나의 GPT-4o 필터링 호출 비용으로 최대 500회의 필터링 작업을 수행할 수 있다. SIEVE의 핵심은 GPT-4o와 경량 텍스트 분류 모델을 원활하게 통합하고, 소수의 GPT-4o 호출을 활용해 배경에서 활성 학습(active learning)을 통해 이러한 모델을 미세 조정하는 방식이다. 학습이 완료된 후, SIEVE는 GPT-4o와 동일한 성능을 매우 낮은 비용으로 제공한다. 다양한 필터링 프롬프트를 통해 SIEVE는 웹 규모의 코퍼스에서 일반적 또는 전문 분야에 적합한 고품질 데이터를 효율적으로 정제할 수 있으며, 이는 현재 고품질의 전문 분야 데이터셋이 희소한 상황에서 매우 유용한 능력이다. 자동 평가 및 인공 평가 지표를 활용한 광범위한 실험 결과, SIEVE와 GPT-4o는 다섯 가지 매우 특정한 필터링 프롬프트에서 유사한 성능을 보였다. 또한 웹 크롤링 데이터셋에 대한 품질 필터링을 수행한 결과, SIEVE가 DataComp-LM 챌린지에서 LLM 사전 훈련 데이터를 선택하는 데 있어 최신 기술을 넘어선 성능을 달성함을 입증하였다.