3일 전
CoT-Self-Instruct: 추론 및 비추론 과제를 위한 고품질 합성 프롬프트 구축
Ping Yu, Jack Lanchantin, Tianlu Wang, Weizhe Yuan, Olga Golovneva, Ilia Kulikov, et al

초록
우리는 LLM이 주어진 시드 작업을 바탕으로 사고 과정(Chain-of-Thought, CoT)을 통해 먼저 추론하고 계획한 후, 유사한 품질과 복잡성을 갖는 새로운 합성 프롬프트를 생성하고, 이후 자동 평가 지표를 활용해 고품질 데이터를 필터링하는 방식으로 LLM 훈련에 활용할 수 있는 합성 데이터 생성 방법인 CoT-Self-Instruct를 제안한다. 검증 가능한 추론 과제에서는, MATH500, AMC23, AIME24, GPQA-Diamond에서 기존 훈련 데이터셋인 s1k 및 OpenMathReasoning에 비해 본 합성 데이터가 뚜렷한 성능 우위를 보였다. 검증이 불가능한 지시 수행 과제에서는 AlpacaEval 2.0 및 Arena-Hard에서 인간이 생성한 지시 또는 일반적인 Self-Instruct 프롬프트에 비해 본 방법이 더 뛰어난 성능을 나타냈다.