2달 전

Cloze-driven Pretraining of Self-attention Networks 클로즈 기반의 자기 주의 네트워크 사전 학습

Alexei Baevski; Sergey Edunov; Yinhan Liu; Luke Zettlemoyer; Michael Auli

초록

우리는 다양한 언어 이해 문제에서 상당한 성능 향상을 제공하는 양방향 트랜스포머 모델의 사전 학습을 위한 새로운 접근 방식을 제시합니다. 우리의 모델은 각 단어가 제거되고 나머지 텍스트를 바탕으로 예측해야 하는 클로즈 스타일의 단어 재구성 작업을 해결합니다. 실험 결과, GLUE 및 NER와 구문 분석 벤치마크에서 새로운 최고 수준의 성능 향상이 확인되었습니다. 이는 동시기에 소개된 BERT 모델과 일관성을 보입니다. 또한, 효과적인 사전 학습에 기여하는 여러 요인, 즉 데이터 도메인과 크기, 모델 용량, 그리고 클로즈 목적 함수의 변형 등에 대한 자세한 분석도 제시합니다.