10일 전

Mol-R1: 분자 탐사에서 명시적 장거리-CoT 추론으로 나아가기

Jiatong Li, Weida Wang, Qinggang Zhang, Junxian Li, Di Zhang, Changmeng Zheng, Shufei Zhang, Xiaoyong Wei, Qing Li
Mol-R1: 분자 탐사에서 명시적 장거리-CoT 추론으로 나아가기
초록

대규모 언어 모델(LLM)은 특히 DeepSeek-R1 및 QWQ와 같은 명시적 장거리 사고 체인(Explicit Long Chain-of-Thought, Long-CoT) 추론 모델이 일반지식 추론 및 수학적 추론 분야에서 뛰어난 성능을 보이며 강력한 추론 능력을 입증하고 있다. 그러나 이러한 Long-CoT 추론 모델은 분자 탐색과 같은 지식 집약적 분야에서 제한된 능력과 낮은 효율성으로 인해 비판을 받는 경우가 많다. 이 분야에서 성공을 거두기 위해서는 분자 구조와 화학 원리 등 분야 전문 지식에 대한 정밀한 이해가 필요하지만, 분자 데이터의 본질적 복잡성과 고품질 전문가 주석의 부족으로 인해 이를 달성하는 것은 어려운 과제이다. 이러한 격차를 메우기 위해, 본 연구에서는 텍스트 기반 분자 생성 작업에서 R1 유사한 명시적 장거리 사고 체인 추론 LLM의 해석 가능성과 추론 성능을 향상시키기 위해 설계된 새로운 프레임워크인 Mol-R1을 제안한다. 본 연구의 접근법은 사전 지식을 기반으로 한 컨텍스트 내 증류(Prior Regulation via In-context Distillation, PRID)를 통해 고품질의 추론 데이터셋을 체계적으로 수집하는 것으로 시작한다. PRID는 사전 규제를 기반으로 쌍으로 구성된 추론 흐름을 효과적으로 생성하기 위한 전용 증류 전략이다. 이를 바탕으로, 본 연구는 MoIA(Molecular Iterative Adaptation)라는 정교한 학습 전략을 도입한다. MoIA는 감독적 미세조정(Supervised Fine-tuning, SFT)과 강화된 정책 최적화(Reinforced Policy Optimization, RPO)를 반복적으로 결합하여, R1 유사 추론 모델의 분자 탐색에 대한 추론 성능을 극대화하는 데 특화된 전략이다. 마지막으로, Mol-R1의 텍스트 기반 분자 추론 생성 작업에서의 성능을 평가하여 기존의 기준 모델들과 비교해 뛰어난 성능을 입증하였다.

Mol-R1: 분자 탐사에서 명시적 장거리-CoT 추론으로 나아가기 | 최신 연구 논문 | HyperAI초신경