
복잡한 추론 과제, 예를 들어 수학 문제나 보편적 지식 기반 질문에 대한 답변 수행 시, 단계별로 '사고의 흐름(chain-of-thought)'을 생성하는 것은 언어 모델의 성능을 향상시킨다. 그러나 현재 언어 모델이 추론 과정을 생성하도록 유도하기 위해서는 대규모 추론 데이터셋을 구축해야 하거나, 소수의 예시 추론만을 사용하는 추론 방식을 채택함으로써 정확도를 희생해야 하는 상황이 존재한다. 본 연구에서는 소량의 추론 예시와 추론이 포함되지 않은 대규모 데이터셋을 반복적으로 활용하여, 점차 더 복잡한 추론 능력을 스스로 개발할 수 있는 기법을 제안한다. 이 기법은 '자기학습 추론기(Self-Taught Reasoner, STaR)'라 명명되며, 간단한 루프 구조에 기반한다. 즉, 소량의 추론 예시를 기반으로 수많은 질문에 대한 추론 과정을 생성하고, 그 결과로 도출된 답변이 틀렸을 경우, 정답을 알게 된 상태에서 다시 추론 과정을 생성해 보는 방식이다. 이후 최종적으로 올바른 답변을 도출한 모든 추론을 활용해 모델을 미세 조정(fine-tune)하고, 이를 반복한다. 실험 결과, STaR는 최종 답변을 직접 예측하도록 미세 조정된 모델에 비해 여러 데이터셋에서 성능이 크게 향상되었으며, CommensenseQA에서 30배 규모의 최신 기술 기반 언어 모델을 미세 조정한 결과와도 유사한 성능을 보였다. 따라서 STaR는 모델이 스스로 생성한 추론을 학습 자료로 활용함으로써, 자기 자신을 개선하는 능력을 갖출 수 있도록 한다.