한 달 전

트랜스포머 언어 모델의 동적 평가

Ben Krause; Emmanuel Kahembwe; Iain Murray; Steve Renals
트랜스포머 언어 모델의 동적 평가
초록

이 연구 노트는 최근 언어 모델링 분야에서 최신 기술을 개선한 두 가지 방법을 결합합니다: 트랜스포머(Transformer)와 동적 평가(Dynamic Evaluation). 트랜스포머는 자기 주의(self-attention) 층을 쌓아 사용하여 순차 데이터에서 장거리 의존성을 포착할 수 있습니다. 동적 평가는 모델을 최근의 순차 이력에 맞추어 재발하는 순차 패턴에 더 높은 확률을 부여할 수 있도록 합니다. 트랜스포머-XL 모델에 동적 평가를 적용함으로써, 우리는 enwik8에서 0.99 비트/문자에서 0.94 비트/문자로, text8에서 1.08 비트/문자에서 1.04 비트/문자로, 그리고 WikiText-103에서 18.3에서 16.4 퍼플렉서티 점수로 최신 기술을 개선했습니다.