17일 전
생성적 사전 훈련을 통한 언어 이해 향상
{Tim Salimans, Ilya Sutskever, Alec Radford, Karthik Narasimhan}
초록
자연어 이해는 텍스트 함의, 질의 응답, 의미 유사도 평가, 문서 분류 등 다양한 작업을 포함한다. 비록 대량의 레이블이 없는 텍스트 코퍼스는 풍부하지만, 이러한 특정 작업을 학습하기 위한 레이블 데이터는 희귀하여, 판별적 학습을 통해 훈련된 모델이 충분한 성능을 발휘하기 어렵다. 본 연구에서는 다양한 레이블 없는 텍스트 코퍼스를 기반으로 언어 모델을 생성형으로 사전 훈련한 후, 각 특정 작업에 대해 판별적 미세조정을 수행함으로써 이러한 작업에서 큰 성능 향상을 달성할 수 있음을 보여준다. 기존의 접근 방식과 달리, 미세조정 과정에서 작업 인지(input transformation)를 활용함으로써 모델 아키텍처에 최소한의 변경만으로도 효과적인 전이 학습을 달성할 수 있다. 본 연구에서 제안하는 방법의 효과는 자연어 이해를 위한 광범위한 벤치마크에서 입증되었다. 일반화된 작업 무차별적 모델은 각 작업에 특화된 아키텍처를 사용한 판별적 학습 모델을 뛰어넘으며, 연구된 12개 작업 중 9개에서 기존 최고 성능을 크게 상회하였다. 예를 들어, 공감각 추론(Stories Cloze Test)에서 8.9%, 질의 응답(RACE)에서 5.7%, 텍스트 함의(MultiNLI)에서 1.5%의 절대적인 성능 향상을 달성하였다.