MIT entwickelt SEAL: Ein Framework für selbstadaptierende KI-Modelle
Beyond Static AI: Das neue Framework von MIT ermöglicht Modellen das Selbstlernen Am 23. Juni 2025 um 14:58 Uhr Forscher am Massachusetts Institute of Technology (MIT) haben ein Framework namens Self-Adapting Language Models (SEAL) entwickelt, das große Sprachmodelle (LLMs) in der Lage sein lässt, kontinuierlich zu lernen und sich anzupassen, indem sie ihre eigenen internen Parameter aktualisieren. SEAL lehrt ein LLM, eigene Trainingsdaten zu generieren und Anweisungen zur Aktualisierung zu erstellen, um neues Wissen dauerhaft zu absorbieren und neue Aufgaben zu erlernen. Dieses Framework könnte besonders für Unternehmensanwendungen nützlich sein, insbesondere für KI-Agenten, die in dynamischen Umgebungen operieren, wo sie ständig neue Informationen verarbeiten und ihr Verhalten anpassen müssen. Die Herausforderung der Anpassung von LLMs Obwohl große Sprachmodelle bemerkenswerte Fähigkeiten gezeigt haben, bleiben die Anpassung an spezifische Aufgaben, die Integration neuer Informationen oder das Meistern neuer Schlussfolgerungsfähigkeiten eine bedeutende Hürde. Aktuell lernen LLMs bei neuen Aufgaben in der Regel „so, wie sie sind“ durch Methoden wie Feinabstimmung (finetuning) oder Kontextlernen (in-context learning). Allerdings ist das bereitgestellte Datenformat nicht immer optimal, damit das Modell effizient lernt. Bestehende Ansätze erlauben es dem Modell nicht, seine eigenen Strategien zu entwickeln, um die neuen Informationen optimal zu transformieren und zu lernen. „Viele Unternehmensanwendungsfälle verlangen mehr als nur die Faktenerinnerung – sie erfordern tiefergehende, dauerhafte Anpassungen“, sagte Jyo Pari, Doktorand am MIT und Mitautor des Papers, dem VentureBeat. „Zum Beispiel muss ein Programmier-Assistent möglicherweise das spezifische Software-Framework eines Unternehmens internalisieren, oder ein Nutzerinteraktionsmodell muss über die Zeit das einzigartige Verhalten oder die Präferenzen eines Benutzers erlernen.“ Bei solchen Anwendungsfällen reicht eine temporäre Abrufung nicht aus; das Wissen muss in die Gewichte des Modells „eingebaut“ werden, um alle zukünftigen Antworten zu beeinflussen. Das Erstellen selbstlernender Sprachmodelle „Als Schritt hin zu skalierbaren und effizienten Anpassungen von Sprachmodellen schlagen wir vor, LLMs mit der Fähigkeit zu versehen, eigene Trainingsdaten und Feinabstimmungsrichtlinien zu generieren, um diese Daten zu nutzen“, schreiben die Forscher am MIT in ihrer Arbeit. Die Lösung der Forscher ist SEAL, eine Abkürzung für Self-Adapting Language Models. Es nutzt einen Reinforcement-Learning-Algorithmus, um ein LLM zu trainieren, „Selbstkorrekturen“ zu generieren – natürlichsprachliche Anweisungen, die festlegen, wie das Modell seine eigenen Gewichte aktualisieren soll. Diese Selbstkorrekturen können neue Informationen umstrukturieren, synthetische Trainingsbeispiele erstellen oder sogar die technischen Parameter für den Lernprozess definieren. Das Framework arbeitet in einem zweischrittigen System. Im „inneren Loop“ verwendet das Modell eine Selbstkorrektur, um eine kleine, vorübergehende Aktualisierung seiner Gewichte durchzuführen. Im „äußeren Loop“ bewertet das System, ob diese Aktualisierung die Leistung des Modells bei einer Zielaufgabe verbessert hat. Wenn dies der Fall ist, erhält das Modell eine positive Belohnung, die seine Fähigkeit stärkt, zukünftig solche effektiven Selbstkorrekturen zu generieren. Im Laufe der Zeit wird das LLM zu einem Experten darin, sich selbst zu unterweisen. Die Forscher führten SEAL in zwei Hauptdomänen an: Wissenseingliederung (die Fähigkeit, neue Fakten dauerhaft zu integrieren) und Few-Shot-Lernen (die Fähigkeit, aus wenigen Beispielen zu generalisieren). SEAL bei der Wissenseingliederung Das Ziel war, zu prüfen, ob das Modell Fragen zu einem Textabsatz beantworten kann, ohne während der Befragung Zugang zum Absatz zu haben. Die Feinabstimmung von Llama-3.2-1B auf den Rohdaten brachte nur marginale Verbesserungen gegenüber dem Basismodell. Doch wenn das SEAL-Modell „Selbstkorrekturen“ erstellt, indem es mehrere „Auswirkungen“ aus einem Absatz generiert und auf diese synthetischen Daten trainiert wird, steigt seine Genauigkeit auf 47 %. Auffällig ist dabei, dass diese Ergebnisse besser waren als die von dem viel größeren GPT-4.1 erzeugten synthetischen Daten, was darauf hindeutet, dass das Modell gelernt hat, besseres Trainingsmaterial für sich selbst zu erstellen. SEAL beim Few-Shot-Lernen Die Forscher testeten SEAL anhand von Beispielen aus dem Abstract Reasoning Corpus (ARC), bei denen das Modell visuelle Rätsel lösen muss. Im Selbstkorrektur-Phasen musste das Modell die gesamte Anpassungsstrategie erstellen, einschließlich der zu verwendenden Datenverarbeitungen, Werkzeuge und Lernraten. SEAL erzielte hierbei einen Erfolgsrate von 72,5 %, was einen signifikanten Verbesserungsvorsprung gegenüber dem 20 % ohne RL-Training und dem 0 % bei standardmäßigem Kontextlernen darstellt. Auswirkungen für das Unternehmen Einige Experten prognostizieren, dass in den kommenden Jahren das Angebot an hochwertigen, menschlich generierten Trainingsdaten erschöpft sein könnte. Fortschritte könnten dann von „der Fähigkeit eines Modells abhängen, eigenständig hochnutzbringende Trainingsdaten zu generieren“, wie die Forscher es formulieren. Sie schlagen vor, ein dediziertes SEAL-Synthetikdaten-Generatormodell zu meta-trainieren, das neue Vortrainingskorpora produziert, um zukünftige Modelle zu skalieren und eine höhere Dateneffizienz zu erreichen, ohne auf zusätzlichen menschlichen Text angewiesen zu sein. Zum Beispiel könnte ein LLM komplexe Dokumente wie wissenschaftliche Arbeiten oder Finanzberichte verarbeiten und autonom tausende Erklärungen und Auswirkungen generieren, um sein Verständnis zu vertiefen. „Diese iterative Schleife aus Selbstdarstellung und Selbstverfeinerung könnte Modellen ermöglichen, auch ohne zusätzliche externe Überwachung in seltenen oder unterrepräsentierten Themen weiterhin zu verbessern“, erklären die Forscher. Diese Fähigkeit ist besonders vielversprechend für die Entwicklung von KI-Agenten. Agenten müssen inkrementell Wissen erwerben und beibehalten, während sie mit ihrer Umgebung interagieren. SEAL bietet dafür ein Mechanismus. Nach einer Interaktion kann ein Agent eine Selbstkorrektur synthetisieren, um eine Gewichtsaktualisierung auszulösen, wodurch er die erlernten Lektionen internalisiert. Dies ermöglicht es dem Agenten, im Laufe der Zeit zu evolvieren, seine Leistung auf Basis von Erfahrungen zu verbessern und seine Abhängigkeit von statischer Programmierung oder wiederholter menschlicher Anleitung zu reduzieren. „SEAL zeigt, dass große Sprachmodelle nicht statisch bleiben müssen, nachdem sie vortrainiert wurden“, schreiben die Forscher. „Indem sie lernen, eigene synthetische Selbstkorrekturdaten zu generieren und diese durch leichtgewichtige Gewichtsaktualisierungen anzuwenden, können sie autonom neues Wissen absorbieren und sich neuen Aufgaben anpassen.“ Einschränkungen von SEAL Dennoch ist SEAL keine universelle Lösung. Zum Beispiel kann es unter „katastrophalischem Vergessen“ leiden, bei dem ständige Retrainingszyklen dazu führen, dass das Modell früher erlernte Kenntnisse vergisst. „In unserer aktuellen Implementierung befürworten wir einen hybriden Ansatz“, sagte Pari. „Unternehmen sollten selektiv entscheiden, welches Wissen wichtig genug ist, um dauerhaft zu integrieren.“ Faktisches und sich entwickelndes Wissen kann in externem Speicher durch RAG (Retrieval-Augmented Generation) beibehalten werden, während langanhaltendes, verhaltensformendes Wissen besser für Gewichtsebene-Aktualisierungen über SEAL geeignet ist. „Diese Art von hybrider Speicherstrategie stellt sicher, dass die richtigen Informationen bestehen bleiben, ohne das Modell zu überlasten oder unnötiges Vergessen einzuführen“, erläuterte er. Es ist auch erwähnenswert, dass SEAL eine nicht unerhebliche Zeit benötigt, um die Selbstkorrekturbeispiele zu feinabstimmen und das Modell zu trainieren. Dies macht kontinuierliches, Echtzeit-Editing in den meisten Produktionsumgebungen nicht praktikabel. „Wir sehen eine praxisnähere Einsatzstrategie, bei der das System Daten über einen bestimmten Zeitraum – sagen wir, ein paar Stunden oder einen Tag – sammelt und dann gezielt Selbstkorrekturen während festgelegter Updateintervalle durchführt“, sagte Pari. „Dieser Ansatz ermöglicht es Unternehmen, die Kosten der Anpassung zu kontrollieren, während sie trotzdem von SEALs Fähigkeit profitieren, neues Wissen zu internalisieren.“ Die Entwicklung von SEAL markiert einen wichtigen Schritt hin zu flexibleren und adaptableren KI-Systemen, die in dynamischen Umgebungen besser auf neue Herausforderungen reagieren können. Obwohl es noch Herausforderungen gibt, bieten die ersten Ergebnisse vielversprechende Perspektiven für die Zukunft der Sprachmodelle in der Unternehmenswelt. Die Möglichkeit, eigene Trainingsdaten zu generieren und sich selbst fortlaufend zu verbessern, könnte die Leistung und Anpassungsfähigkeit von KI-Agenten erheblich steigern, was wiederum zu innovativeren und effizienteren Unternehmenslösungen führen könnte.