1ヶ月前

言語モデルの限界を探る

Rafal Jozefowicz; Oriol Vinyals; Mike Schuster; Noam Shazeer; Yonghui Wu

要約

本研究では、大規模言語モデルの中心的なタスクである言語理解における最近のリカレントニューラルネットワーク（RNN）の進歩を探索します。現在のモデルを、このタスクに存在する2つの主要な課題であるコーパスと語彙のサイズ、および言語の複雑で長期的な構造に対処するために拡張しています。10億単語ベンチマークにおいて、キャラクター畳み込みニューラルネットワーク（CNN）や長短期記憶（LSTM）などの技術について詳細な研究を行いました。最良の単一モデルは、パープレキシティを51.3から30.0へと大幅に改善し（パラメータ数を20分の1に削減）、モデルのアンサンブルでは新記録を樹立し、パープレキシティを41.0から23.7へと改善しました。また、これらのモデルをNLPおよびMLコミュニティが研究し、改良できるように公開しています。