Command Palette
Search for a command to run...
Haoran Sun Yankai Jiang Zhenyu Tang Yaning Pan et al

초록
재현 가능한 과학의 기반은 정밀하고 논리적으로 정렬되며 실행 가능한 프로토콜에 있다. 자연어 질의를 통해 이러한 프로토콜을 자동으로 생성할 수 있다면, 재현 과정의 효율성이 크게 향상될 수 있다. 그러나 현재 주요 대규모 언어 모델(Large Language Models, LLMs)은 종종 불완전하거나 일관성 없는 프로토콜을 생성하여 활용도에 한계를 겪고 있다. 이 한계를 극복하기 위해, 우리는 27개의 생물학 하위 분야를 아우르는 12,000건 이상의 구조화된 프로토콜을 포함한 대규모 데이터셋인 SciRecipe를 제안한다. 이 데이터셋은 프로토콜 이해와 문제 해결을 모두 수반하는 과제를 포함한다. 프로토콜 생성의 품질을 further 향상시키기 위해, 분석, 구조화, 표현을 분리함으로써 각 단계가 명확하고 검증 가능하도록 보장하는 '스케치 앤 필(Sketch-and-Fill)' 패러다임을 제안한다. 이를 보완하여, 단계의 세분화 수준, 행동 순서, 의미적 일관성을 평가하는 구조화된 구성 요소 기반 보상 메커니즘을 도입함으로써 모델 최적화를 실험적 신뢰성과 일치시킨다. 이러한 구성 요소들을 기반으로, 지식 획득에서 운영적 추론을 거쳐 최종적으로 강력하고 실행 가능한 프로토콜 생성에 이르는 단계적 지식-행동(Knowledge-to-Action) 프로세스를 통해 훈련된 Thoth를 개발하였다. 다양한 벤치마크에서 Thoth는 기존의 사내 및 오픈소스 LLM들을 일관되게 능가하며, 단계 일치도, 논리적 순서 정렬, 의미적 정확도에서 눈에 띄는 개선을 보였다. 본 연구는 지식과 실험 실행을 연결하는 신뢰할 수 있는 과학 보조 도구의 실현 가능성을 열어준다. 모든 데이터, 코드, 모델은 공개적으로 배포될 예정이다.