Discord에서 논의하기

일 년 전

감독된 미세조정

Wanlong Liu Junxiao Xu Fei Yu Yukang Lin Ke Ji Wenyu Chen Yan Xu Yasheng Wang Lifeng Shang Benyou Wang

초록

최근 Long Chain-of-Thought (CoT) 추론 모델의 발전으로 복잡한 작업에서 성능이 향상되었지만, 간단한 질문에 대해서는 과도한 생각(overthinking)으로 인해 불필요한 추론 단계를 생성하는 문제가 있습니다. 본 논문에서는 Long CoT와 Short CoT 모델의 추론 패턴을 재검토하여, Short CoT 패턴이 효율적으로 간결한 추론을 제공하는 반면, Long CoT 패턴은 Short CoT 패턴이 어려움을 겪는 도전적인 상황에서 뛰어난 성능을 보이는 것을 관찰하였습니다. 이 두 가지 패턴을 모두 활용할 수 있도록 Question-Free Fine-Tuning (QFFT) 방법을 제안합니다. QFFT는 학습 과정에서 입력 질문을 제거하고 Long CoT 응답만을 통해 학습하는 미세 조정(fine-tuning) 접근법입니다. 이 방법은 모델이 적응적으로 두 가지 추론 패턴을 모두 사용할 수 있게 합니다: Short CoT 패턴을 우선시하고, 필요할 때만 Long CoT 패턴을 활성화합니다. 다양한 수학 데이터셋에 대한 실험 결과, QFFT가 평균 응답 길이를 50% 이상 줄이며, 감독된 미세 조정(Supervised Fine-Tuning, SFT)과 유사한 성능을 달성함을 확인하였습니다. 또한, QFFT는 노이즈가 많은 환경, 영역 외 환경(out-of-domain), 그리고 저자원 환경(low-resource)에서 SFT보다 우수한 성능을 보임을 입증하였습니다.

소스 PDF 코드 보기

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩

바로 사용 가능한 GPU

최적의 가격

시작하기 가격 보기

HyperAI Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

Discord에서 논의하기

일 년 전

감독된 미세조정

Wanlong Liu Junxiao Xu Fei Yu Yukang Lin Ke Ji Wenyu Chen Yan Xu Yasheng Wang Lifeng Shang Benyou Wang

초록

최근 Long Chain-of-Thought (CoT) 추론 모델의 발전으로 복잡한 작업에서 성능이 향상되었지만, 간단한 질문에 대해서는 과도한 생각(overthinking)으로 인해 불필요한 추론 단계를 생성하는 문제가 있습니다. 본 논문에서는 Long CoT와 Short CoT 모델의 추론 패턴을 재검토하여, Short CoT 패턴이 효율적으로 간결한 추론을 제공하는 반면, Long CoT 패턴은 Short CoT 패턴이 어려움을 겪는 도전적인 상황에서 뛰어난 성능을 보이는 것을 관찰하였습니다. 이 두 가지 패턴을 모두 활용할 수 있도록 Question-Free Fine-Tuning (QFFT) 방법을 제안합니다. QFFT는 학습 과정에서 입력 질문을 제거하고 Long CoT 응답만을 통해 학습하는 미세 조정(fine-tuning) 접근법입니다. 이 방법은 모델이 적응적으로 두 가지 추론 패턴을 모두 사용할 수 있게 합니다: Short CoT 패턴을 우선시하고, 필요할 때만 Long CoT 패턴을 활성화합니다. 다양한 수학 데이터셋에 대한 실험 결과, QFFT가 평균 응답 길이를 50% 이상 줄이며, 감독된 미세 조정(Supervised Fine-Tuning, SFT)과 유사한 성능을 달성함을 확인하였습니다. 또한, QFFT는 노이즈가 많은 환경, 영역 외 환경(out-of-domain), 그리고 저자원 환경(low-resource)에서 SFT보다 우수한 성능을 보임을 입증하였습니다.

소스 PDF 코드 보기

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩

바로 사용 가능한 GPU

최적의 가격

시작하기 가격 보기

HyperAI Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

QFFT, 질문 없는 적응형 추론을 위한 미세 조정(Question-Free Fine-Tuning for Adaptive Reasoning) | 문서 | HyperAI초신경