Command Palette

Search for a command to run...

2ヶ月前

UltraMemV2:1200億パラメータにスケーリングするメモリネットワークと優れた長文脈学習

UltraMemV2:1200億パラメータにスケーリングするメモリネットワークと優れた長文脈学習

要約

Mixture of Experts(MoE)モデルは、パラメータのサブセットのみを活性化することで顕著な効率性を達成するが、推論時に高いメモリアクセスコストを負うという課題を抱えている。メモリ層アーキテクチャは、極めて少ないメモリアクセスで動作する魅力的な代替手段を提供するが、これまでの試み(例:UltraMem)は、2エキスパートのMoEモデルの性能にしか達しておらず、最新の8エキスパート構成と比べて著しく劣っていた。本研究では、この性能ギャップを埋めるために、再設計されたメモリ層アーキテクチャ「UltraMemV2」を提案する。本アプローチは以下の5つの主要な改良を導入している:Transformerブロック全体にメモリ層を統合すること、単一の線形投影による値の拡張の簡素化、PEERで採用されたFFNベースの値処理の導入、原理的なパラメータ初期化の採用、およびメモリ計算とFFN計算の比率の再調整。広範な評価を通じて、UltraMemV2が計算量およびパラメータ数が同じ条件下で8エキスパートのMoEモデルと同等の性能を達成しつつ、メモリアクセスを著しく低減できることを実証した。特に、メモリ集約的なタスクにおいて優れた性能を発揮し、長文コンテキストの記憶能力において+1.6ポイント、複数ラウンドの記憶能力において+6.2ポイント、コンテキスト内学習において+7.9ポイントの向上を達成した。また、合計パラメータ数120B、活性化パラメータ数最大2.5Bのスケールでの実証により、本手法の有効性を確認した。さらに、パフォーマンスに与える影響の観点から、活性化密度が総スパースパラメータ数よりも重要であることが明らかになった。本研究により、メモリ層アーキテクチャが最先端のMoEモデルと同等の性能を達成することが可能となり、効率的なスパース計算の有力な代替手段としての可能性を示した。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
UltraMemV2:1200億パラメータにスケーリングするメモリネットワークと優れた長文脈学習 | 論文 | HyperAI超神経