Discord에서 논의하기

10달 전

감독된 미세조정

Ping Yu Jack Lanchantin Tianlu Wang Weizhe Yuan Olga Golovneva Ilia Kulikov et al

초록

우리는 LLM이 주어진 시드 작업을 바탕으로 사고 과정(Chain-of-Thought, CoT)을 통해 먼저 추론하고 계획한 후, 유사한 품질과 복잡성을 갖는 새로운 합성 프롬프트를 생성하고, 이후 자동 평가 지표를 활용해 고품질 데이터를 필터링하는 방식으로 LLM 훈련에 활용할 수 있는 합성 데이터 생성 방법인 CoT-Self-Instruct를 제안한다. 검증 가능한 추론 과제에서는, MATH500, AMC23, AIME24, GPQA-Diamond에서 기존 훈련 데이터셋인 s1k 및 OpenMathReasoning에 비해 본 합성 데이터가 뚜렷한 성능 우위를 보였다. 검증이 불가능한 지시 수행 과제에서는 AlpacaEval 2.0 및 Arena-Hard에서 인간이 생성한 지시 또는 일반적인 Self-Instruct 프롬프트에 비해 본 방법이 더 뛰어난 성능을 나타냈다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩

바로 사용 가능한 GPU

최적의 가격

시작하기 가격 보기

HyperAI Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

Discord에서 논의하기

10달 전

감독된 미세조정

Ping Yu Jack Lanchantin Tianlu Wang Weizhe Yuan Olga Golovneva Ilia Kulikov et al

초록

우리는 LLM이 주어진 시드 작업을 바탕으로 사고 과정(Chain-of-Thought, CoT)을 통해 먼저 추론하고 계획한 후, 유사한 품질과 복잡성을 갖는 새로운 합성 프롬프트를 생성하고, 이후 자동 평가 지표를 활용해 고품질 데이터를 필터링하는 방식으로 LLM 훈련에 활용할 수 있는 합성 데이터 생성 방법인 CoT-Self-Instruct를 제안한다. 검증 가능한 추론 과제에서는, MATH500, AMC23, AIME24, GPQA-Diamond에서 기존 훈련 데이터셋인 s1k 및 OpenMathReasoning에 비해 본 합성 데이터가 뚜렷한 성능 우위를 보였다. 검증이 불가능한 지시 수행 과제에서는 AlpacaEval 2.0 및 Arena-Hard에서 인간이 생성한 지시 또는 일반적인 Self-Instruct 프롬프트에 비해 본 방법이 더 뛰어난 성능을 나타냈다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩

바로 사용 가능한 GPU

최적의 가격

시작하기 가격 보기

HyperAI Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

CoT-Self-Instruct: 추론 및 비추론 과제를 위한 고품질 합성 프롬프트 구축 | 문서 | HyperAI초신경