초록

과학적 인공지능의 발전에도 불구하고, 과학적 영역을 종합적으로 탐구하고 자율적으로 가설을 설정하며 추론할 수 있는 능력인 과학적 일반지능(SGI: Scientific General Intelligence)에 대한 통합적인 프레임워크는 여전히 부족한 실정이다. 본 연구에서는 실천적 탐구 모델(PIM: Deliberation, Conception, Action, Perception)을 기반으로 한 운영 가능한 SGI 정의를 제안하며, 과학자들과 일치하는 네 가지 작업을 통해 이를 구현한다. 이 작업들은 심층적 연구, 아이디어 생성, 건식/습식 실험, 실험적 추론이다. SGI-Bench는 과학 저널 '사이언스(Science)'의 125대 과학 질문들을 영감으로 삼아 전문가들이 철저히 검토한 1,000개 이상의 교차 분야 샘플을 포함하고 있으며, 최신 대규모 언어 모델(LLM)의 체계적 평가를 가능하게 한다. 평가 결과에 따르면, 단계 수준의 일치는 보였으나 심층적 연구에서 정확한 일치율은 10~20%에 불과했으며, 제안된 아이디어는 실현 가능성과 구체성 측면에서 부족함을 보였다. 건식 실험에서는 코드 실행 가능성은 높았으나 실행 결과 정확도는 낮았고, 습식 실험 프로토콜에서는 시퀀스 일관성(Sequence Fidelity)이 낮았다. 또한 다중모달 비교 추론 능력에 대한 지속적인 도전 과제가 존재했다. 이를 보완하기 위해 본 연구는 추론 시점 강화학습(TTRL: Test-Time Reinforcement Learning)을 도입하여, 추론 과정에서 검색 증강형 신선도 보상(retrieval-augmented novelty rewards)을 최적화함으로써 참조 답변 없이도 가설의 창의성을 향상시키는 방법을 제시한다. 본 연구에서 제안하는 PIM 기반 정의, 작업 중심의 벤치마크, 그리고 실증적 통찰은 진정으로 과학적 발견에 참여할 수 있는 인공지능 시스템을 구축하는 기반을 마련한다.

소스 PDF 코드 보기