체인 오브 써티(CoT) 컬렉션: 체인 오브 써티 피니트 튜닝을 통한 언어 모델의 제로샷 및 희소샷 학습 향상

1000억 파라미터 미만의 언어 모델(LM)은 새로운 작업을 해결할 때 대규모 LM에 비해 체인오브사고(Chain-of-Thought, CoT) 추론 성능이 낮다는 것이 잘 알려져 있다. 본 연구에서는 CoT 추론 과정을 포함한 지시 조정(instruction tuning)을 통해 소규모 LM에 단계적 추론 능력을 부여하는 것을 목표로 한다. 이를 달성하기 위해 기존의 Flan Collection(단 9개의 CoT 작업 포함)에 1,060개의 작업을 기반으로 한 184만 개의 추가 추론 과정을 포함하는 새로운 지시 조정 데이터셋인 CoT Collection을 제안한다. 실험을 통해 CoT Collection을 사용한 지시 조정을 통해 Flan-T5(3B 및 11B) 모델이 새로운 작업에 대해 훨씬 우수한 CoT 추론 능력을 갖게 됨을 입증하였다. BIG-Bench-Hard(BBH) 벤치마크에서 제로샷(zero-shot) 작업 정확도 측면에서 Flan-T5 3B 모델은 평균 +4.34% 향상되었으며, Flan-T5 11B 모델은 +2.60% 향상되었다. 또한, CoT Collection을 활용한 지시 조정은 4개의 도메인 특화 작업에서 소규모 LM의 소샷(few-shot) 학습 능력을 강화함을 보였다. 이로 인해 Flan-T5 3B는 +2.24%, Flan-T5 11B는 +2.37%의 성능 향상을 기록하였으며, 최대 길이에 도달할 때까지 예시를 활용하는 ChatGPT를 초월하는 성능을 달성하며 +13.98%의 성능 우위를 보였다. 본 연구의 코드, CoT Collection 데이터셋, 모델 체크포인트는 모두 공개되어 있다.