17日前

ハイエナ階層:大規模な畳み込み言語モデルへの道 ※注:LLM/LLMs/Agent/token/tokens などの固有名詞は原文のまま保持。学术的表現を意識し、流れと自然さを重視した翻訳。

Michael Poli, Stefano Massaroli, Eric Nguyen, Daniel Y. Fu, Tri Dao, Stephen Baccus, Yoshua Bengio, Stefano Ermon, Christopher Ré
ハイエナ階層:大規模な畳み込み言語モデルへの道
※注:LLM/LLMs/Agent/token/tokens などの固有名詞は原文のまま保持。学术的表現を意識し、流れと自然さを重視した翻訳。
要約

近年の深層学習の進展は、スケーラビリティに優れた特徴を有する大規模なTransformerモデルの活用に大きく依存している。しかし、Transformerの核となるアテンション演算子は、シーケンス長に対して二次的な計算コストを示すため、扱えるコンテキストの量に制限が生じている。従来の低ランク近似やスパース近似に基づくサブ二次的アプローチは、Transformerと同等の性能を得るためには密なアテンション層と組み合わせる必要があり、性能面でのギャップが依然として存在している。本研究では、暗黙的にパラメータ化された長距離畳み込みとデータ制御型ゲートを交互に配置することで構成される、アテンションのサブ二次的かつ即座に置き換え可能な代替手法「Hyena」を提案する。数千から数十万トークンに及ぶ長大なシーケンスに対する記憶・推論タスクにおいて、状態空間に基づく手法や他の暗黙的・明示的アプローチと比較して、Hyenaは精度を50ポイント以上向上させ、アテンションベースのモデルと同等の性能を達成した。標準データセット(WikiText103およびThe Pile)における言語モデリングにおいて、密なアテンションを必要としないアーキテクチャの分野で新たな最良成績を樹立し、シーケンス長2KにおいてTransformerの性能を達成しつつ、トレーニングに必要な計算量を20%削減した。また、シーケンス長8Kでは高度に最適化されたアテンションよりも2倍高速であり、シーケンス長64Kでは100倍の高速化を実現した。

ハイエナ階層:大規模な畳み込み言語モデルへの道 ※注:LLM/LLMs/Agent/token/tokens などの固有名詞は原文のまま保持。学术的表現を意識し、流れと自然さを重視した翻訳。 | 最新論文 | HyperAI超神経