MITが開発、LLMが自ら学習データを生成・更新できる新フレームワーク「SEAL」
MITの研究者たちが開発した新しいフレームワーク「Self-Adapting Language Models (SEAL)」により、大規模な言語モデル(LLMs)が自己学習と適応を行うことが可能になりました。SEALは模型に自分の内部パラメータを更新するための訓練データとフィネットニング指示を生成させることで、新しい知識やタスクを永続的に取り込む能力を付与します。これにより、モデルは新規情報を効率的に処理および理解することができます。 現状では、大規模言語モデルは新たなタスクに対するアダプトや新たな情報を統合する際に課題を抱えています。一般的には、FinetuningやIn-context Learningなどで新規情報を学習しますが、提供されたデータが最適な形式でないことが多く、効率的な学習が難しいのが現状です。MITの研究者であるJyo Pari氏は、「多くのエンタープライズ用途では、単なるファクトの記憶だけでなく、深く永続的なアダプトが求められます」と述べています。例えば、コーディングアシスタントは企業独自のソフトウェアフレームワークを内蔵し、顧客向けモデルはユーザーの特別な行動や嗜好を時間と共に学び続ける必要があります。 SEALは強化学習(RL)アルゴリズムを使用して、自然言語の指示(self-edits)を生成し、それらに基づいてモデルの重みを更新します。これはモデルが自身の「学習指南」を作成し、新たな情報を読み取り、再フォーマットして効果的に吸収するためのものです。SEALは合成データ生成、強化学習、及びテスト時に学習(TTT)といったAIの主要研究分野を融合することでこの目標を達成します。 SEALは「内ループ」と「外ループ」の二重ループシステムで動作します。内ループでは、モデルがself-editを使用して一時的に自身の重みを更新します。外ループでは、その更新が標的タスクの性能向上に寄与したかどうかが評価されます。性能向上が見られた場合は、モデルはそのような効果的なself-editの生成を将来的にも行うことへの報酬を受け取ります。時間をかけてモデルは自分自身を教える専門家となります。 テストでは、SEALが永続的な新たな知識を取り込む能力(knowledge incorporation)と、僅かな例から一般化する能力(few-shot learning)について評価されました。Knowledge incorporationでは、Llama-3.2-1Bを生のテキストデータでフィネットニングした場合、ベースモデルからの改善は僅かでした。しかし、SEALのmodelがseveral "implications"を生成し、それに基づいた合成データの訓練を受けることで、精度は47%に上昇しました。これは、はるかに大きなGPT-4.1によって生成された合成データより優れた結果でした。 Few-shot learningでは、視覚的なパズルを解く能力がテストされました。Self-editフェーズで、モデルはどのデータ拡張やツールを使用するか、学習率をどれにするかといった適応戦略すべてを生成する必要がありました。SEALは達成率72.5%を記録し、強化学習を導入しなかった場合の20%や一般的なin-context learningでは0%の成績から一気に飛躍しました。 SEALの導入により、エンタープライズにおけるAIエージェントの進化が期待されます。エージェントシステムは、環境との相互作用を通じて段階的に知識を得て維持することが求められています。SEALは、相互作用後にself-editを生成して重みの更新を引き起こすことができます。これにより、エージェントは経験に基づいて自己進化し、静的なプログラムや反復的な人間の指導に頼ることなく機能を向上させることができます。 一方、SEALにはいくつかの制限もあります。「catastrophic forgetting」という、頻繁な再トレーニングによって以前の知識が消えてしまう問題があります。Pari氏は、「現在の実装ではハイブリッドアプローチを奨励しています」と述べています。重要性の高い知識は永続的に統合し、時系列的な知識はRetrieval-Augmented Generation (RAG)を用いて外部メモリに保持することで、適切な情報を永続的にするとともに、モデルの負荷や不要な忘却を防ぐことができます。 また、SEALの調整と学習には一定の時間がかかるため、大部分の生産環境でのリアルタイムでの使用は現実的ではありません。Pari氏は、「システムが数時間または1日のような期間にわたってデータを収集し、その後予定された更新インターバルでtargeted self-editsを行うというモデルを想定しています」と補足しています。これにより、エンタープライズは新知識の内部化という利点を得つつ、適応のコストをコントロールできます。 SEALは大規模言語モデルがプレトレーニング後に固定される必要がないことを示しており、自己生成した合成self-editデータを適用する能力を持つことで、新規の知識やタスクへの適応が自動的に行われます。これにより、AIの進化と応用力が大きく向上することが期待されています。また、モデルを永続的に動かすための新たな手法として注目されています。MITは、AI技術分野の先端を走る大学であり、SEALの開発はその研究力の一端を示していると言えるでしょう。