11일 전

사전 훈련된 언어 모델을 이용한 데이터셋 생성

Timo Schick, Hinrich Schütze
사전 훈련된 언어 모델을 이용한 데이터셋 생성
초록

사전 훈련된 언어 모델(PLM)로부터 고품질의 문장 임베딩을 얻기 위해서는 추가적인 사전 훈련 목표를 도입하거나, 레이블이 붙은 텍스트 쌍의 대규모 데이터셋에서 미세 조정(finetuning)을 수행해야 한다. 후자의 접근 방식은 일반적으로 전자의 접근 방식보다 우수한 성능을 보이지만, 적절한 규모의 데이터셋을 생성하기 위해 상당한 인적 자원이 필요하다. 본 논문에서는 레이블이 붙은 데이터, 미세 조정, 또는 사전 훈련 목표의 수정 없이도 고품질의 문장 임베딩을 얻을 수 있는 방법을 제시한다. 우리는 대규모且 고성능의 PLM이 가지는 생성 능력을 활용하여, 처음부터 레이블이 붙은 텍스트 쌍의 전체 데이터셋을 생성한 후, 이를 사용해 훨씬 작고 더 효율적인 모델을 미세 조정한다. 제안하는 완전히 비지도 학습 기반의 접근 방식은 여러 문장 유사도 측정 데이터셋에서 강력한 기준 모델들을 능가하는 성능을 보였다.

사전 훈련된 언어 모델을 이용한 데이터셋 생성 | 최신 연구 논문 | HyperAI초신경