초록

감독형 미세조정(Supervised Fine-Tuning, SFT)은 대규모 언어 모델(Large Language Models, LLMs)을 훈련시키는 데 필수적이며, 지시어 따르기(instruction following) 및 맥락 내 학습(in-context learning)과 같은 핵심 능력을 크게 향상시킨다. 그러나 특정 도메인에 맞춘 적절한 훈련 데이터셋을 생성하는 것은 도메인 고유의 제약 조건과 데이터 부족 문제로 인해 여전히 도전 과제이다. 본 논문에서는 SFT를 위한 고품질 지시어 데이터셋을 구축하기 위해 특별히 설계된 혁신적인 방법인 SearchInstruct를 제안한다. 본 연구의 접근법은 제한된 수의 도메인 특화 인간 생성 질문부터 시작하여, 대규모 언어 모델을 활용해 체계적으로 질문을 확장하는 것으로 구성된다. 이후 각 확장된 질문에 대해 도메인 관련 자료를 동적으로 검색하여 정확하고 맥락에 적절한 답변을 생성한다. 실험적 평가 결과, SearchInstruct는 SFT 데이터셋의 다양성과 품질을 향상시켜 전문 도메인 내 LLM 성능에 측정 가능한 개선을 이끌어냈다. 더불어 본 방법이 데이터셋 생성을 넘어서 모델 편집(model editing) 등의 작업에도 효과적으로 활용될 수 있음을 보여주었다. 이를 통해 기존 모델을 효율적으로 업데이트할 수 있다. 재현 가능성과 커뮤니티 도입을 촉진하기 위해, 본 연구에서는 전체 구현 세부 사항, 생성된 지시-응답 쌍 전체 집합, 그리고 소스 코드를 공개된 Git 저장소에서 제공한다:https://github.com/mostafaamiri/SearchInstruct

소스 PDF 코드 보기