8일 전
ZeroGen: 데이터셋 생성을 통한 효율적인 제로샷 학습
Jiacheng Ye, Jiahui Gao, Qintong Li, Hang Xu, Jiangtao Feng, Zhiyong Wu, Tao Yu, Lingpeng Kong

초록
최근 대규모 사전 훈련된 언어 모델(PLMs)의 뛰어난 생성 능력으로 인해 데이터셋 생성에 대한 관심이 증가하고 있다. 본 논문에서는 유연하고 효율적인 제로샷 학습 방법인 \textsc{ZeroGen}을 제안한다. 주어진 제로샷 태스크에 대해, 먼저 비지도 학습 방식으로 PLMs를 사용해 처음부터 데이터셋을 생성한다. 이후 생성된 데이터셋을 기반으로 소규모 태스크 모델(예: LSTM)을 지도 학습한다. 이 방법은 최종 태스크 모델이 PLMs(예: GPT2-XL)에 비해 매개변수 수가 수 개의 주어지지 않은 차수만큼 적기 때문에 매우 효율적인 추론을 가능하게 한다. annotation이 필요 없고 효율적인 것 외에도, \textsc{ZeroGen}은 데이터 없이 모델에 의존하지 않는 지식 전이(Knowledge Distillation) 및 참조 없는 텍스트 생성 평가 관점에서 유용한 통찰을 제공할 수 있다고 주장한다. 텍스트 분류, 질의 응답, 자연어 추론 등 다양한 NLP 태스크에 대한 실험과 분석을 통해 \textsc{ZeroGen}의 효과성을 입증하였다.