HyperAI
Back to Headlines

أMIT تطور إطارًا جديدًا يمكن نماذج الذكاء الاصطناعي من التعلم المستمر والتعديل الذاتي

منذ 2 أيام

إطار جديد من معهد ماساتشوستس للتكنولوجيا يسمح للنماذج اللغوية الكبيرة بالتعلم الذاتي 23 يونيو 2025 طور باحثون من معهد ماساتشوستس للتكنولوجيا (MIT) إطارًا جديدًا يُعرف باسم "النماذج اللغوية الذاتية التكيف" (Self-Adapting Language Models - SEAL) الذي يمكّن النماذج اللغوية الكبيرة (LLMs) من التعلم المستمر والتكيف من خلال تحديث معلماتها الداخلية. يتيح SEAL للنموذج توليد بياناته التدريبية الخاصة به وتوجيهات التحديث، مما يسمح له بامتصاص المعرفة الجديدة وتعلم المهام الجديدة بشكل دائم. التحدي في تكييف النماذج اللغوية الكبيرة رغم إظهار النماذج اللغوية الكبيرة قدرات مدهشة، فإن تكييفها لأداء مهام محددة، أو دمج معلومات جديدة، أو تعلم مهارات تحليلية جديدة يظل تحديًا كبيرًا. عند مواجهة مهمة جديدة، تقوم النماذج الحالية عادةً بتعلم البيانات "كما هي" من خلال طرق مثل التحسين الدقيق (finetuning) أو التعلم السياقي (in-context learning). ولكن البيانات المقدمة ليست دائمًا في صيغة مثلى للنموذج لكي يتعلم بكفاءة. الطرق الحالية لا تسمح للنموذج بتطوير استراتيجياته الخاصة لأفضل تحويل وتعلم المعلومات الجديدة. تطوير النماذج اللغوية الذاتية التكيف يوضح الباحثون في ورقتهم البحثية أن حلهم هو SEAL، وهو إطار يستخدم خوارزمية التعلم التعزيزي (reinforcement learning - RL) لتدريب نموذج لغوي كبير على توليد "تعديلات ذاتية" - تعليمات بلغة طبيعية تحدد كيفية تحديث وزن النموذج الخاص به. يمكن لهذه التعديلات الذاتية إعادة تركيب المعلومات الجديدة، إنشاء أمثلة تدريبية صناعية، أو حتى تعريف المعلمات الفنية للعملية التعليمية نفسها. يعمل الإطار بنظام حلقات مزدوجة. في الحلقة الداخلية، يستخدم النموذج تعديلًا ذاتيًا لتنفيذ تحديث مؤقت صغير لوزنه. في الحلقة الخارجية، يقوم النظام بتقييم ما إذا كان هذا التحديث قدImproved the model's performance on a target task. If it did, the model receives a positive reward, reinforcing its ability to generate effective self-edits in the future. Over time, the LLM becomes an expert at teaching itself. SEAL في العمل �试了SEAL在两个关键领域:知识整合(永久集成新事实的能力)和少量学习(从少量示例中概括的能力)。 在知识整合方面,研究的目标是看模型是否可以在没有访问原始文本的情况下回答关于该文本的问题。对Llama-3.2-1B进行原始文本微调仅比基础模型略有改进。然而,当SEAL模型通过生成多个“推论”并在此合成数据上进行训练时,其准确性跃升至47%。值得注意的是,这超过了使用更大规模的GPT-4.1生成的合成数据的结果,表明模型学会了为自己创建更优质的训练材料。 在少量学习方面,研究人员在抽象推理语料库(Abstract Reasoning Corpus - ARC)的例子上测试了SEAL,其中模型必须解决视觉谜题。在自我编辑阶段,模型必须生成整个适应策略,包括要使用哪些数据增强和工具以及应用哪种学习速率。SEAL实现了72.5%的成功率,远远超过了没有RL训练的20%成功率和标准上下文学习的0%成功率。 对企业的影响 一些专家预测,在未来几年内,高质量的人类生成训练数据可能会耗尽。正如研究人员所言,进展可能很快将取决于“模型生成自己的高价值训练信号的能力”。他们补充说,“下一步的自然扩展是对专用的SEAL合成数据生成模型进行元训练,以产生新的预训练语料库,使未来的模型能够在不依赖额外人类文本的情况下扩大规模并提高数据效率。” 例如,研究人员提出,一个大型语言模型可以消化复杂的文档,如学术论文或财务报告,并自主生成数千个解释和推论,以加深其理解。这种迭代的自我表达和自我完善循环可以使模型在缺乏外部监督的情况下继续改进罕见或代表性不足的主题。 这种能力对于构建AI代理系统特别有前景。代理系统必须逐步获取和保留知识,随着与环境的互动而进化。SEAL提供了一种机制,使得代理在每次互动后可以合成自我编辑以触发权重更新,从而内部化所学到的经验教训。这使代理能够随着时间的推移不断进化,根据经验提高性能,并减少对外部静态编程或重复人工指导的依赖。 SEAL的局限性 尽管如此,SEAL并非万能解决方案。例如,它可能会遭受“灾难性遗忘”,即连续的再训练周期可能导致模型忘记其早期知识。 “在我们当前的实现中,我们鼓励采用混合方法,”Pari说道。“企业在选择哪些知识重要到需要永久集成方面应具有选择性。”事实性和演变数据可以通过RAG保留在外部记忆中,而持久的行为塑造知识则更适合通过SEAL进行权重级更新。“这种混合记忆策略确保正确信息得以持久存在,而不会使模型负担过重或引入不必要的遗忘,”他补充道。 值得注意的是,SEAL在调整自我编辑示例和训练模型方面需要相当长的时间。这使得大多数生产环境中实时、连续的编辑变得不可行。 “我们设想一种更为实际的部署模型,系统在一段时间内收集数据——比如几小时或一天——然后在计划的更新间隔内执行目标自我编辑,”Pari说道。“这种方法使企业能够控制适应成本,同时仍然受益于SEAL内部化新知识的能力。” 专家评估和公司简介 بعض الخبراء يرون أن SEAL يمثل خطوة هامة نحو تطوير نماذج لغوية أكثر فعالية وتكيفًا. تشير دراسات سابقة إلى أن القدرة على توليد بيانات تدريبية عالية الجودة بشكل مستقل هي أحد العناصر الأساسية لتحقيق تقدم مستمر في مجال الذكاء الصناعي. ومع ذلك، يجب أن يتم تقييم حدوث "النسيان الكارثي" بعناية لضمان عدم فقدان المعلومات الهامة. معهد ماساتشوستس للتكنولوجيا (MIT) هو واحد من أبرز المؤسسات التعليمية والبحثية في العالم، معروف بتقدمه في مجالات العلوم والتكنولوجيا والهندسة والرياضيات. يعمل الباحثون في MIT على تطوير تقنيات مبتكرة تهدف إلى تحسين حياة البشر وحل المشكلات العالمية المعقدة.

Related Links