HyperAIHyperAI

Command Palette

Search for a command to run...

CoT-Self-Instruct: 추론 및 비추론 과제를 위한 고품질 합성 프롬프트 구축

Ping Yu Jack Lanchantin Tianlu Wang Weizhe Yuan Olga Golovneva Ilia Kulikov et al

초록

우리는 LLM이 주어진 시드 작업을 바탕으로 사고 과정(Chain-of-Thought, CoT)을 통해 먼저 추론하고 계획한 후, 유사한 품질과 복잡성을 갖는 새로운 합성 프롬프트를 생성하고, 이후 자동 평가 지표를 활용해 고품질 데이터를 필터링하는 방식으로 LLM 훈련에 활용할 수 있는 합성 데이터 생성 방법인 CoT-Self-Instruct를 제안한다. 검증 가능한 추론 과제에서는, MATH500, AMC23, AIME24, GPQA-Diamond에서 기존 훈련 데이터셋인 s1k 및 OpenMathReasoning에 비해 본 합성 데이터가 뚜렷한 성능 우위를 보였다. 검증이 불가능한 지시 수행 과제에서는 AlpacaEval 2.0 및 Arena-Hard에서 인간이 생성한 지시 또는 일반적인 Self-Instruct 프롬프트에 비해 본 방법이 더 뛰어난 성능을 나타냈다.


AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩
바로 사용 가능한 GPU
최적의 가격

HyperAI Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
CoT-Self-Instruct: 추론 및 비추론 과제를 위한 고품질 합성 프롬프트 구축 | 문서 | HyperAI초신경