HyperAIHyperAI

Command Palette

Search for a command to run...

ハイエナ階層:大規模な畳み込み言語モデルへの道 ※注:LLM/LLMs/Agent/token/tokens などの固有名詞は原文のまま保持。学术的表現を意識し、流れと自然さを重視した翻訳。

Michael Poli Stefano Massaroli Eric Nguyen Daniel Y. Fu Tri Dao Stephen Baccus Yoshua Bengio Stefano Ermon Christopher Ré

概要

近年の深層学習の進展は、スケーラビリティに優れた特徴を有する大規模なTransformerモデルの活用に大きく依存している。しかし、Transformerの核となるアテンション演算子は、シーケンス長に対して二次的な計算コストを示すため、扱えるコンテキストの量に制限が生じている。従来の低ランク近似やスパース近似に基づくサブ二次的アプローチは、Transformerと同等の性能を得るためには密なアテンション層と組み合わせる必要があり、性能面でのギャップが依然として存在している。本研究では、暗黙的にパラメータ化された長距離畳み込みとデータ制御型ゲートを交互に配置することで構成される、アテンションのサブ二次的かつ即座に置き換え可能な代替手法「Hyena」を提案する。数千から数十万トークンに及ぶ長大なシーケンスに対する記憶・推論タスクにおいて、状態空間に基づく手法や他の暗黙的・明示的アプローチと比較して、Hyenaは精度を50ポイント以上向上させ、アテンションベースのモデルと同等の性能を達成した。標準データセット(WikiText103およびThe Pile)における言語モデリングにおいて、密なアテンションを必要としないアーキテクチャの分野で新たな最良成績を樹立し、シーケンス長2KにおいてTransformerの性能を達成しつつ、トレーニングに必要な計算量を20%削減した。また、シーケンス長8Kでは高度に最適化されたアテンションよりも2倍高速であり、シーケンス長64Kでは100倍の高速化を実現した。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています