MegaScience: 과학 추론을 위한 훈련 후 데이터셋의 경계를 넘어서기

과학적 추론은 인공지능 과학자 개발과 자연과학 발견의 경계를 확장하는 데 있어 인간 연구자들을 지원하는 데 필수적입니다. 그러나 오픈소스 커뮤니티는 주로 수학과 코딩에 집중되어 과학 분야를 소홀히 해왔는데, 이는 과학적 추론 데이터셋 중에서 오픈, 대규모, 고품질, 검증 가능한 데이터가 부족하기 때문입니다. 이 격차를 메우기 위해 우리는 12,000개의 대학 수준 과학 교과서에서 추출한 정확한 참고 답을 특징으로 하는 TextbookReasoning라는 오픈 데이터셋을 처음으로 제시합니다. 이 데이터셋은 7개의 과학 분야에 걸쳐 650,000개의 추론 질문을 포함하고 있습니다. 또한, 다양한 데이터 선택 방법론을 체계적으로 평가하여 각 공개 과학 데이터셋에 최적의 하위집합을 식별한 데 기반하여 총 125만 개의 인스턴스를 포함한 대규모 고품질 오픈소스 데이터셋인 MegaScience를 소개합니다. 한편, 15개의 벤치마크에서 다양한 주제와 질문 유형을 포괄하는 종합적인 평가 시스템을 구축하였으며, 정확한 평가 지표를 보장하기 위해 포괄적인 답변 추출 전략을 포함하고 있습니다. 우리의 실험 결과는 기존 오픈소스 과학 데이터셋과 비교하여 더 짧은 응답 길이로 우수한 성능과 훈련 효율을 달성함을 보여줍니다. 또한, MegaScience를 기반으로 Llama3.1, Qwen2.5, Qwen3 시리즈의 기본 모델을 훈련시킨 결과, 이 모델들은 공식 지시 모델에 비해 평균 성능에서 훨씬 우수한 성능을 보였습니다. 더욱이, MegaScience는 더 큰 및 더 강력한 모델에서 더 높은 효과를 보여주며, 이는 과학적 튜닝에서 규모의 이점을 나타냅니다. 우리는 데이터 정제 파이프라인, 평가 시스템, 데이터셋 및 7개의 훈련된 모델을 커뮤니티에 공개하여 과학적 추론 연구의 발전에 기여하고자 합니다.