
要約
言語モデル分野における主流のアプローチは、すべて私の青春時代のテレビ番組——つまり『トランスフォーマー』と『セサミストリート』に夢中になっている。『トランスフォーマー』だの、『トランスフォーマー』だの、そしてそちらにはGPU・TPU・ニューロモーフィックなウェーハスケールシリコンの焚き火ほどの膨大な計算資源が。我々は、古くから確立された技術の「楽な道」を選び、かの「暗号技術」を想起させる洒落た略語を用いる:Single Headed Attention RNN(SHA-RNN)。著者の唯一の目的は、もし我々がわずかに異なる略語とわずかに異なる結果に注目していたならば、この分野はまったく別の方向へ進んでいたかもしれないということを示すことにある。以前から強力とされていた、退屈なLSTMのみを用いた言語モデルを用い、enwik8データセットにおいて、バイトレベルの最先端言語モデルの結果に石を投げても届く距離まで近づけることに成功した。本研究は、極めて高度なハイパーパラメータ最適化を経ておらず、著者の小さなスタジオアパートをサンフランシスコの夏の真っ只中に、あまりにも熱くさせたコンシューマー向けデスクトップマシン上で完全に実行された。最終的な結果は、著者の不耐性を反映して、単一GPU上で+-24時間程度で達成可能である。また、注意機構(attention mechanism)は、計算量を最小限に抑えつつ、大規模なコンテキストへも容易に拡張可能である。どうだ、セサミストリート。