HyperAIHyperAI

Command Palette

Search for a command to run...

階層的トランスフォーマーは、より効率的な言語モデルである

Piotr Nawrot Szymon Tworkowski Michał Tyrolski Łukasz Kaiser Yuhuai Wu Christian Szegedy Henryk Michalewski

概要

Transformerモデルは、自然言語処理(NLP)およびシーケンスモデリングの多くのタスクにおいて、驚くべき成果を上げている。特に注目すべきは、Transformerが長大なシーケンスを処理できることであり、これにより長く一貫性のある出力が可能となる——例えばGPT-3が生成する全文の段落や、DALL-Eが構造的に整った画像を生成する例が挙げられる。このような大規模言語モデルは非常に印象的ではあるが、同時に処理効率が低く、コストも高いため、その応用範囲とアクセス性に制限が生じている。本研究では、Transformerが長大なシーケンスを効率的に処理できる鍵は、明示的な階層構造(hierarchical architecture)にあると仮定する。この仮説を検証するために、まずTransformerにおける活性化値のダウンサンプリングおよびアップサンプリングのさまざまな手法を検討し、階層構造を持つモデルの構築を目指した。その中で最も性能の優れたアップサンプリング層とダウンサンプリング層を組み合わせ、階層型Transformer言語モデル「Hourglass」を構築した。同モデルは、計算量を同一にした条件下で、従来のTransformerベースラインを上回る性能を発揮し、同等の結果をより効率的に達成できる。特に、ImageNet32画像生成タスクにおいて、Transformerモデルの新しい最良精度(state-of-the-art)を達成し、広く研究されているenwik8ベンチマークにおいても言語モデリングの効率性を向上させた。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています