17日前

階層的トランスフォーマーは、より効率的な言語モデルである

Piotr Nawrot, Szymon Tworkowski, Michał Tyrolski, Łukasz Kaiser, Yuhuai Wu, Christian Szegedy, Henryk Michalewski

要約

Transformerモデルは、自然言語処理（NLP）およびシーケンスモデリングの多くのタスクにおいて、驚くべき成果を上げている。特に注目すべきは、Transformerが長大なシーケンスを処理できることであり、これにより長く一貫性のある出力が可能となる——例えばGPT-3が生成する全文の段落や、DALL-Eが構造的に整った画像を生成する例が挙げられる。このような大規模言語モデルは非常に印象的ではあるが、同時に処理効率が低く、コストも高いため、その応用範囲とアクセス性に制限が生じている。本研究では、Transformerが長大なシーケンスを効率的に処理できる鍵は、明示的な階層構造（hierarchical architecture）にあると仮定する。この仮説を検証するために、まずTransformerにおける活性化値のダウンサンプリングおよびアップサンプリングのさまざまな手法を検討し、階層構造を持つモデルの構築を目指した。その中で最も性能の優れたアップサンプリング層とダウンサンプリング層を組み合わせ、階層型Transformer言語モデル「Hourglass」を構築した。同モデルは、計算量を同一にした条件下で、従来のTransformerベースラインを上回る性能を発揮し、同等の結果をより効率的に達成できる。特に、ImageNet32画像生成タスクにおいて、Transformerモデルの新しい最良精度（state-of-the-art）を達成し、広く研究されているenwik8ベンチマークにおいても言語モデリングの効率性を向上させた。