Command Palette
Search for a command to run...

초록
우리는 자연어와 이질적인 과학적 표현 간의 일치를 달성하는 과학적 추론 기반 모델을 제안한다. 이 모델은 과학적 텍스트, 순수한 시퀀스, 그리고 시퀀스-텍스트 쌍으로 구성된 총 2060억 토큰 규모의 코퍼스를 기반으로 사전 훈련된 후, 4,000만 개의 지시사항을 활용한 SFT(Supervised Fine-Tuning)를 통해 정렬하였으며, 냉시작 부트스트래핑(annealed cold-start bootstrapping)을 적용하여 장문 형태의 사고 과정(chain-of-thought)을 유도하고, 작업별 보상 구조를 활용한 강화학습을 통해 체계적이고 성찰적인 과학적 추론 능력을 내재화하였다. 본 모델은 다섯 가지 능력군을 지원하며, 작업 흐름 전반에 걸쳐 최대 103개의 작업을 다룰 수 있다. 구체적으로는 (i) 텍스트와 과학적 형식 간의 충실도 높은 번역, (ii) 텍스트/지식 추출, (iii) 성질 예측, (iv) 성질 분류, (v) 무조건적 및 조건부 시퀀스 생성 및 설계이다. 전문 시스템과 비교했을 때, 본 연구의 접근법은 지시사항 커버리지를 확대하고, 다영역 일반화 능력을 향상시키며, 출력의 정확성과 신뢰도를 높인다. 본 연구는 데이터 수집 및 훈련 과정을 상세히 설명하며, 다학제적 학습이 전이 능력과 후속 작업의 신뢰성 강화에 기여함을 보여준다. 모델, 지시 조정 데이터셋 및 평가 코드는 모두 공개되어 있으며, 각각 https://huggingface.co/SciReason 및 https://github.com/open-sciencelab/SciReason 에서 확인할 수 있다.