13일 전

대규모 언어 모델을 더 나은 데이터 생성자로 만들기

Dong-Ho Lee, Jay Pujara, Mohit Sewak, Ryen W. White, Sujay Kumar Jauhar
대규모 언어 모델을 더 나은 데이터 생성자로 만들기
초록

대규모 언어 모델(LLM)은 자연어 처리(NLP) 분야에서 상태의 최전선을 크게 발전시켰지만, 비용, 응답성, 제어 가능성, 개인정보 및 보안에 대한 우려 등의 이유로 하류 응용 프로그램에 배포하는 데 여전히 도전 과제가 있다. 이러한 이유로 일부 상황에서는 학습 가능한 모델이 여전히 선호되는 선택지이다. 그러나 이러한 모델 역시 최적의 성능을 발휘하기 위해 인간 라벨링 데이터를 필요로 하며, 이는 비용이 많이 들고 시간이 오래 걸리는 과정이다. 이 문제를 해결하기 위해, LLM을 활용하여 데이터 라벨링 또는 생성을 통해 인간의 노력 감소를 도모하는 여러 기법이 제안되어 왔다. 이러한 방법들은 특정 응용 분야에서는 효과적이지만, 실세계 환경에서는 실제 적용 시 어려움을 겪는다. 데이터 라벨링은 신중한 데이터 선별이 필요하고, 데이터 생성은 작업에 특화된 프롬프트 설계가 필수적이다. 본 논문에서는 단 하나의 형식 예시만으로도 다양한 작업에 적용 가능한 통합적인 데이터 생성 파이프라인을 제안한다. 특히 의미가 없는 레이블 공간을 가진 전통적으로 어려운 작업들에도 유용하다. 실험을 통해 지시어를 따르는 LLM이 매우 비용 효율적인 데이터 생성 도구임을 입증하였으며, 이러한 데이터로 훈련된 모델은 분포 외 평가에서 인간 라벨링 데이터로 훈련된 모델보다 최대 17.5%까지 높은 성능을 보였고, 분포 내 작업에서는 유사한 성능을 유지함을 확인하였다. 이러한 결과는 실세계에 배포되는 NLP 시스템의 견고성에 중요한 함의를 지닌다.