한 달 전

언어 모델링의 한계 탐구

Rafal Jozefowicz; Oriol Vinyals; Mike Schuster; Noam Shazeer; Yonghui Wu
언어 모델링의 한계 탐구
초록

본 연구에서는 대규모 언어 모델링이라는 언어 이해의 핵심적인 과제에 있어 최근의 순환 신경망(RNN) 발전을 탐구합니다. 현재 모델들을 이 과제에서 나타나는 두 가지 주요 도전 과제인 말뭉치와 어휘 사전 크기, 그리고 언어의 복잡하고 장기적인 구조를 처리하기 위해 확장하였습니다. 우리는 문자 기반 합성곱 신경망(CNN)이나 장단기 기억(LSTM) 등의 기술을 '10억 단어 벤치마크'에서 철저히 분석하였습니다. 최고 성능을 보인 단일 모델은 기존 최신 기술의 혼동도(perplexity)를 51.3에서 30.0으로 크게 개선하였으며(매개변수 수를 20배 줄임), 여러 모델들의 앙상블은 혼동도를 41.0에서 23.7로 개선하여 새로운 기록을 세웠습니다. 또한, 이러한 모델들을 NLP 및 ML 커뮤니티가 연구하고 개선할 수 있도록 공개하였습니다.

언어 모델링의 한계 탐구 | 최신 연구 논문 | HyperAI초신경