AgentFly: Feinabstimmen von LLM-Agenten ohne Feinabstimmen von LLMs

In diesem Artikel stellen wir ein neuartiges Lernparadigma für adaptive große Sprachmodell-(LLM-)Agenten vor, das die Feinabstimmung der zugrundeliegenden LLMs überflüssig macht. Bestehende Ansätze sind entweder zu starr, da sie auf statischen, handgefertigten Reflexionsworkflows basieren, oder rechenintensiv, da sie Gradientenupdates der LLM-Modellparameter erfordern. Im Gegensatz dazu ermöglicht unsere Methode eine kostengünstige kontinuierliche Anpassung mittels gedächtnisbasierter Online-Verstärkungslernverfahren. Wir formalisieren diesen Ansatz als Memory-augmented Markov-Entscheidungsprozess (M-MDP), der über eine neuronale Fallauswahlpolitik zur Steuerung von Handlungsentscheidungen verfügt. Vergangene Erfahrungen werden in einem episodischen Gedächtnis gespeichert, das entweder differenzierbar oder parametrisch nicht abhängig ist. Die Politik wird kontinuierlich anhand von Umweltfeedback durch eine Gedächtnisumstrukturierungsmechanik aktualisiert, während die Verbesserung der Politik durch effizientes Gedächtnislesen (Retrieval) erreicht wird. Wir implementieren unser Agentenmodell im Kontext tiefer Forschung, konkret als AgentFly, das die Bestplatzierung in der GAIA-Validierung (87,88 % Pass@3) und 79,40 % auf dem Testset erreicht. Auf dem DeepResearcher-Datensatz erzielt es eine F1-Score von 66,6 % und eine PM-Rate von 80,4 %, wobei es die derzeit beste auf Training basierende Methode übertrifft; zudem steigert das fallbasierte Gedächtnis die Leistung auf außerhalb der Verteilung liegenden Aufgaben um 4,7 bis 9,6 absolute Prozentpunkte. Unser Ansatz bietet einen skalierbaren und effizienten Weg zur Entwicklung generalistischer LLM-Agenten, die kontinuierliches, Echtzeit-Lernen ohne Gradientenupdates ermöglichen und damit die maschinelle Lernforschung in Richtung offener Fähigkeitsakquisition und tiefer Forschungsszenarien voranbringen. Der Quellcode ist unter https://github.com/Agent-on-the-Fly/AgentFly verfügbar.