한 달 전

미래를 예측하며 분할하고 주의력을 활용하여 신경 언어 모델 개선하기

Hongyin Luo; Lan Jiang; Yonatan Belinkov; James Glass
미래를 예측하며 분할하고 주의력을 활용하여 신경 언어 모델 개선하기
초록

일반적인 언어 모델은 주어진 맥락을 바탕으로 다음 단어를 예측하는 데 사용됩니다. 본 연구에서는 주어진 맥락과 그 뒤의 구문을 정렬하는 방법을 학습하여 언어 모델링을 개선하는 방법을 제안합니다. 이 모델은 구문 분절에 대한 언어학적 주석이 필요하지 않습니다. 대신, 우리는 문법적 높이와 구문 분절 규칙을 정의하여 모델이 비지도 학습 방식으로 자동으로 구문을 유도하고, 해당 구문의 작업 특异性 머리를 인식하며, 구문 임베딩을 생성할 수 있도록 합니다. 우리의 방법은 구문 유도 및 맥락-구문 정렬에 독립적인 모듈을 사용하므로, 기저 언어 모델링 네트워크에 변화를 가하지 않고도 다양한 네트워크 아키텍처를 가진 언어 모델에 쉽게 적용할 수 있습니다. 실험 결과, 우리의 모델은 여러 강력한 베이스라인 모델보다 다양한 데이터 세트에서 우수한 성능을 보였습니다. 우리는 Wikitext-103 데이터 세트에서 17.4의 퍼플렉서티로 새로운 최고 성능을 달성했습니다. 또한, 구문 유도 모듈의 출력 시각화 결과는 우리의 모델이 어떤 주석 없이 근사적인 구문 수준 구조 지식을 학습할 수 있음을 보여주었습니다.