
要約
現在までの言語モデルの主流なアプローチは、再帰型ニューラルネットワーク(Recurrent Neural Networks: RNN)に基づいています。このタスクにおけるRNNの成功は、無限のコンテキストを捉える能力としばしば結びつけられています。本論文では、積み重ねた畳み込み(stacked convolutions)を通じて有限のコンテキストアプローチを開発し、シーケンシャルトークン間での並列化が可能であるため、より効率的であることを示します。私たちは新しい簡素化されたゲーティング機構を提案し、これがOordら(2016年)の方法を上回ることを確認しました。また、重要なアーキテクチャ決定の影響を調査しています。提案されたアプローチはWikiText-103ベンチマークで最先端の性能を達成しており、長期依存関係が含まれているにもかかわらず、Google Billion Wordsベンチマークでも競争力のある結果を示しています。私たちのモデルは、再帰型ベースラインと比較して文のスコアリングにかかる遅延時間を1桁削減しています。当該研究において、大規模な言語タスクで強力な再帰型モデルと競争できる非再帰型アプローチが初めて提案されたものだと認識しています。