MIT研发SEAL框架:让大型语言模型实现自我学习与适应
麻省理工学院(MIT)的研究人员开发了一种名为自我适应语言模型(SEAL)的新框架,使大型语言模型(LLM)能够通过更新自身内部参数来持续学习和适应新环境。SEAL框架教导LLM生成自己的训练数据和更新指令,从而让模型能够永久吸收新知识并学习新任务。 这一框架特别适用于企业应用,尤其是那些需要在动态环境中持续处理和适应新信息的AI代理。目前的大型语言模型虽然功能强大,但在特定任务、整合新信息或掌握新型推理能力方面仍然面临着显著挑战。现有的方法如微调和上下文学习往往依赖于固定的数据集,缺乏灵活性和效率。为了解决这些问题,研究团队提出了SEAL框架,即利用强化学习(RL)算法训练LLM生成“自编辑”——用自然语言指定如何更新模型的权重。 SEAL框架采用两层循环系统。在“内循环”中,模型利用自编辑进行临时的小规模权重更新;在“外循环”中,系统评估该更新是否提高了模型在目标任务上的表现。如果表现有所提升,模型会收到正面奖励,以便在未来生成更有效的自编辑。这种机制使LLM逐渐成为自我教学的专家。 研究人员在两个主要领域测试了SEAL的效果:知识整合和少量样本学习。在知识整合测试中,SEAL通过生成合成数据,显著提升了对新事实的理解和回答问题的能力,准确率从微调后的5%提高到了47%,甚至超过了更大模型GPT-4.1的表现。在少量样本学习测试中,SEAL解决视觉谜题的成功率由20%跃升至72.5%。 SEAL在企业中的应用前景也十分广阔。专家预测,未来几年高质量的人类生成训练数据可能会枯竭。因此,能够自主生成高价值训练数据的模型将成为重要发展方向。SEAL的自我教学和权重更新机制能够使AI代理在与环境互动时不断获取和保留知识,从而逐步优化性能,减少对静态编程或重复人类指导的依赖。 然而,SEAL并非完美无缺。它存在“灾难性遗忘”的风险,即频繁的重新训练可能导致模型忘记早期习得的知识。此外,SEAL的自我编辑和训练过程相对较耗时,难以实现实时更新。因此,研究团队建议企业在部署SEAL时采取混合策略,将即时和演化的数据存放在外部记忆中,而长期和行为塑造的知识则通过权重级更新永久集成。 总的来说,SEAL展示了大型语言模型在预训练后仍能继续保持灵活更新和适应新任务的能力。这不仅为企业提供了更加高效的AI解决方案,也为未来的AI研究开辟了新的方向。 麻省理工学院在机器学习和人工智能领域一直以来都是领先者,SEAL的研究进一步巩固了其在这一领域的地位。研究团队由Jyo Pari和其他多位博士生组成,他们的工作受到了业界的广泛认可。业内人士认为,SEAL框架代表了AI领域的一个重要突破,有望在企业应用中大幅提升AI代理的智能化水平。