10일 전

실행 피드백을 통한 자체 대결: 대규모 언어 모델의 지시어 준수 능력 향상

Guanting Dong, Keming Lu, Chengpeng Li, Tingyu Xia, Bowen Yu, Chang Zhou, Jingren Zhou
실행 피드백을 통한 자체 대결: 대규모 언어 모델의 지시어 준수 능력 향상
초록

대규모 언어 모델(LLM)의 핵심 기능 중 하나는 자연어 지시사항을 이해하고 따르는 능력이다. 그러나 수동 주석 없이 복잡한 지시사항 수행 능력을 향상시키기 위한 고품질 훈련 데이터를 자동으로 구축하는 문제는 여전히 해결되지 않은 과제이다. 본 논문에서는 지시사항 수행 훈련 데이터를 자동으로 생성하기 위한 첫 번째 확장 가능하고 신뢰할 수 있는 방법인 AutoIF를 제안한다. AutoIF는 지시사항 수행 데이터 품질 검증을 코드 검증 문제로 변환한다. 이 과정에서 LLM은 지시사항을 생성하고, 해당 지시사항에 대한 응답 정확성을 검증하기 위한 코드를 생성하며, 코드의 정확성을 검증하기 위한 단위 테스트 샘플을 제공한다. 이후 실행 피드백 기반 거부 샘플링을 통해 감독 미세조정(SFT) 및 인간 피드백을 통한 강화학습(RLHF) 훈련에 사용할 수 있는 데이터를 생성할 수 있다. AutoIF는 Qwen2와 LLaMA3와 같은 최상위 오픈소스 LLM에 적용했을 때, 자가 정렬(self-alignment) 및 강한 모델에서 약한 모델로의 지식 전달(strong-to-weak distillation) 설정에서 세 가지 훈련 알고리즘인 SFT, 오프라인 DPO, 온라인 DPO 모두에서 상당한 성능 향상을 달성하였다. 본 연구의 코드는 공개적으로 제공되며, 다음 링크에서 확인할 수 있다: https://github.com/QwenLM/AutoIF.

실행 피드백을 통한 자체 대결: 대규모 언어 모델의 지시어 준수 능력 향상 | 최신 연구 논문 | HyperAI초신경