Command Palette

Search for a command to run...

2日前

ネストド・ラーニング:ディープラーニングアーキテクチャの錯覚

Ali Behrouz Meisam Razaviyayn Peiling Zhong Vahab Mirrokni

ネストド・ラーニング:ディープラーニングアーキテクチャの錯覚

要約

過去数十年にわたり、より強力なニューラルアーキテクチャの開発と、それらを効果的に訓練するための最適化アルゴリズムの設計を同時に進めることが、機械学習モデルの性能向上を目指す研究の核心であった。近年の進展、特に言語モデル(Language Models: LMs)の発展にもかかわらず、こうしたモデルがどのように継続的に学習・記憶を行い、自己改善を遂げ、かつ「有効な解」を発見するのかという根本的な課題や未解決の問いが依然として残っている。本論文では、ネストされた階層的・並列的な最適化問題の集合としてモデルを一貫して表現する新しい学習パラダイム「ネスト学習(Nested Learning: NL)」を提案する。NLは、既存の深層学習手法がデータから学習する際に、自身の「コンテキストフロー」を圧縮することで実現されていることを明らかにし、大規模モデルにおける「コンテキスト内学習(in-context learning)」がどのように生じるかを説明する。さらに、NLは深層学習に新たな次元(より多くの「レベル」を持つ学習アルゴリズムの設計)を提供し、高次のコンテキスト内学習能力を持つモデルの設計を可能にする道筋を示している。NLの神経科学的に妥当かつ数学的に透過性のある性質に加え、以下の三つの核心的貢献を通じてその重要性を主張する。(1)深層最適化器(Deep Optimizers):NLに基づき、よく知られた勾配ベースの最適化手法(例:Adam、モーメンタム付きSGDなど)が、実際には勾配を勾配降下法によって圧縮することを目的とした関連記憶モジュールであることを示した。この洞察を基に、深い記憶構造やより強力な学習ルールを持つ、より表現力の高い最適化器群を提案する。(2)自己修正型巨人(Self-Modifying Titans):NLが学習アルゴリズムに関する洞察を活用し、自身の更新アルゴリズムを学ぶことで、自己修正を行う新たな系列モデルを提案する。(3)連続記憶システム(Continuum Memory System):従来の「長期記憶/短期記憶」という枠組みを一般化する新しい記憶システムの定式化を提示する。この自己修正型系列モデルと連続記憶システムを統合し、HoPE(Higher-order Prompt-based Encoding)と呼ばれる学習モジュールを構築した。このモジュールは、言語モデリング、継続的学習、長文脈推論といったタスクにおいて、有望な結果を示している。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
ネストド・ラーニング:ディープラーニングアーキテクチャの錯覚 | 論文 | HyperAI超神経