HyperAIHyperAI

Command Palette

Search for a command to run...

AgentFly: Feinabstimmen von LLM-Agenten ohne Feinabstimmen von LLMs

Zusammenfassung

In diesem Artikel stellen wir ein neuartiges Lernparadigma für adaptive große Sprachmodell-(LLM-)Agenten vor, das die Feinabstimmung der zugrundeliegenden LLMs überflüssig macht. Bestehende Ansätze sind entweder zu starr, da sie auf statischen, handgefertigten Reflexionsworkflows basieren, oder rechenintensiv, da sie Gradientenupdates der LLM-Modellparameter erfordern. Im Gegensatz dazu ermöglicht unsere Methode eine kostengünstige kontinuierliche Anpassung mittels gedächtnisbasierter Online-Verstärkungslernverfahren. Wir formalisieren diesen Ansatz als Memory-augmented Markov-Entscheidungsprozess (M-MDP), der über eine neuronale Fallauswahlpolitik zur Steuerung von Handlungsentscheidungen verfügt. Vergangene Erfahrungen werden in einem episodischen Gedächtnis gespeichert, das entweder differenzierbar oder parametrisch nicht abhängig ist. Die Politik wird kontinuierlich anhand von Umweltfeedback durch eine Gedächtnisumstrukturierungsmechanik aktualisiert, während die Verbesserung der Politik durch effizientes Gedächtnislesen (Retrieval) erreicht wird. Wir implementieren unser Agentenmodell im Kontext tiefer Forschung, konkret als AgentFly, das die Bestplatzierung in der GAIA-Validierung (87,88 % Pass@3) und 79,40 % auf dem Testset erreicht. Auf dem DeepResearcher-Datensatz erzielt es eine F1-Score von 66,6 % und eine PM-Rate von 80,4 %, wobei es die derzeit beste auf Training basierende Methode übertrifft; zudem steigert das fallbasierte Gedächtnis die Leistung auf außerhalb der Verteilung liegenden Aufgaben um 4,7 bis 9,6 absolute Prozentpunkte. Unser Ansatz bietet einen skalierbaren und effizienten Weg zur Entwicklung generalistischer LLM-Agenten, die kontinuierliches, Echtzeit-Lernen ohne Gradientenupdates ermöglichen und damit die maschinelle Lernforschung in Richtung offener Fähigkeitsakquisition und tiefer Forschungsszenarien voranbringen. Der Quellcode ist unter https://github.com/Agent-on-the-Fly/AgentFly verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
AgentFly: Feinabstimmen von LLM-Agenten ohne Feinabstimmen von LLMs | Paper | HyperAI