8일 전

ZeroGen: 데이터셋 생성을 통한 효율적인 제로샷 학습

Jiacheng Ye, Jiahui Gao, Qintong Li, Hang Xu, Jiangtao Feng, Zhiyong Wu, Tao Yu, Lingpeng Kong
ZeroGen: 데이터셋 생성을 통한 효율적인 제로샷 학습
초록

최근 대규모 사전 훈련된 언어 모델(PLMs)의 뛰어난 생성 능력으로 인해 데이터셋 생성에 대한 관심이 증가하고 있다. 본 논문에서는 유연하고 효율적인 제로샷 학습 방법인 \textsc{ZeroGen}을 제안한다. 주어진 제로샷 태스크에 대해, 먼저 비지도 학습 방식으로 PLMs를 사용해 처음부터 데이터셋을 생성한다. 이후 생성된 데이터셋을 기반으로 소규모 태스크 모델(예: LSTM)을 지도 학습한다. 이 방법은 최종 태스크 모델이 PLMs(예: GPT2-XL)에 비해 매개변수 수가 수 개의 주어지지 않은 차수만큼 적기 때문에 매우 효율적인 추론을 가능하게 한다. annotation이 필요 없고 효율적인 것 외에도, \textsc{ZeroGen}은 데이터 없이 모델에 의존하지 않는 지식 전이(Knowledge Distillation) 및 참조 없는 텍스트 생성 평가 관점에서 유용한 통찰을 제공할 수 있다고 주장한다. 텍스트 분류, 질의 응답, 자연어 추론 등 다양한 NLP 태스크에 대한 실험과 분석을 통해 \textsc{ZeroGen}의 효과성을 입증하였다.

ZeroGen: 데이터셋 생성을 통한 효율적인 제로샷 학습 | 최신 연구 논문 | HyperAI초신경