2024 年 5 月 8 日、長短期記憶 LSTM の提案者および創設者である Sepp Hochreiter が、xLSTM のプレプリント論文を arXiv にアップロードしました。 「xLSTM: 拡張長期短期記憶」。この記事では、LLM の最新テクノロジを使用して LSTM を数十億のパラメータに拡張すると、言語モデリングでどこまでできるのかという疑問が生じています。このペーパーでは、従来の LSTM の制限に対処し、大規模言語モデル (LLM) でのパフォーマンスを向上させる新機能を導入する LSTM 設計の大幅な進歩について紹介します。
xLSTM の正式名は Extended Long Short-Term Memory です。xLSTM は、Long Short-Term Memory (LSTM) の概念、つまり定数エラー カルーセルとゲートの概念を復活させたものです。 Sepp Hochreiter と Jürgen Schmidhuber によって導入された LSTM は、時系列や言語モデリングなどの逐次タスクにおける勾配消失問題の克服に成功した 1990 年代の革新的な深層学習アーキテクチャです。それ以来、LSTM は時の試練に耐え、数多くの深層学習の成功事例に貢献し、特に最初の大規模言語モデル (LLM) を構成しました。しかし、並列セルフアテンションを中核としたTransformerテクノロジーの登場は、LSTMを規模で上回る新時代の到来を告げています。
上に示したように、xLSTM ファミリとそのコンポーネントの概要が示されています。左から右へ:
3. mLSTM および sLSTM メモリ セルを残差ブロックに統合して、xLSTM ブロックを形成します。
4. xLSTM アーキテクチャは、xLSTM ブロックの残りのスタッキングによって構築されます。
xLSTM アーキテクチャの導入は、大規模言語モデル (LLM) の開発とパフォーマンスに大きな影響を与えます。従来の LSTM の制限に対処し、指数関数的ゲート、行列メモリ、並列化可能なアーキテクチャなどの新しいコンポーネントを組み込むことにより、xLSTM は LLM の新しい可能性を開きます。
大規模言語モデル (LLM) に対する xLSTM の主な利点の 1 つは、長いシーケンスと大規模な言語モデリング タスクを効率的に処理できることです。 xLSTM の線形時間計算量と一定のメモリ複雑さにより、Transformer ベースのモデルに関連する計算コストとメモリ使用量の二次増加を招くことなく、長いテキスト データを処理するのに適しています。この効率性の利点は、トレーニングや推論中に大量のテキスト データを処理する必要があることが多い LLM にとって特に有益です。
さらに、xLSTM は、Transformer LLM および RWKV と比較して、言語モデリングのパフォーマンスが向上し、パープレキシティ スコアが低くなりました。これは、LLM で生成されるテキストの品質と一貫性を向上させる可能性を示しています。 xLSTM のマトリックス メモリと指数関数的ゲート メカニズムにより、トレーニング データからより包括的で詳細な情報を取得して保持できるため、言語の理解と生成機能が向上します。
xLSTM 論文で提案されているスケーリング則は、大規模なデータセット (300B トークンの SlimPajama コーパスなど) でトレーニングされた場合でも、xLSTM のパフォーマンス上の利点が持続することを示しています。 LLM は最先端のパフォーマンスを達成するために大量のトレーニング データに依存することが多いため、このスケーラビリティは LLM にとって非常に重要です。 xLSTM は、大規模なスケールにわたって効率性とモデリング機能を維持できるため、将来の LLM にとって有望なアーキテクチャになります。
さらに、xLSTM アーキテクチャの柔軟性により、mLSTM モジュールと sLSTM モジュールのさまざまな比率が可能になり、特定の言語モデリング タスクをカスタマイズして適応する機会が提供されます。 LLM はさまざまな要件や特性を持つさまざまな自然言語処理タスクに適用されることが多いため、この適応性は LLM にとって貴重です。
また、xLSTM アーキテクチャは、LLM の研究とイノベーションに新たな道を切り開きます。 xLSTM での指数関数的ゲートと行列メモリの導入は、Transformer ベースのモデルの優位性に挑戦し、より優れた効率とパフォーマンスを提供する代替アーキテクチャの探求を促進します。 xLSTM の成功は、LLM の新しいメモリ構造、ゲート機構、および並列化技術に関するさらなる研究を刺激する可能性があります。
要約すると、xLSTM アーキテクチャは LLM に大きな進歩をもたらします。その効率性、スケーラビリティ、改善された言語モデリング機能により、Transformer ベースのモデルの有望な代替手段となります。 LLM の分野が進化し続けるにつれて、xLSTM によって導入された洞察と革新が将来の開発を形成し、自然言語処理で可能なことの限界を押し広げる可能性があります。 xLSTM 論文は、高品質の言語理解と生成を実現しながら、大量のテキスト データを効率的に処理できる LLM の新時代の基礎を築きます。