HyperAIHyperAI

Command Palette

Search for a command to run...

Meta-RL fördert die Exploration bei Sprach-Agenten

Yulun Jiang Liangze Jiang Damien Teney Michael Moor Maria Brbic

Zusammenfassung

Reinforcement Learning (RL) hat die Ausbildung von großen Sprachmodell-Agenten ermöglicht, um mit der Umgebung zu interagieren und Aufgaben mit mehreren Schritten und langer Horizontdauer zu lösen. Allerdings haben RL-geschulte Agenten oft Schwierigkeiten bei Aufgaben, die aktive Exploration erfordern, und sind nicht in der Lage, effizient aus Erfahrungen durch Ausprobieren und Fehlschlagen zu lernen. In diesem Paper stellen wir LaMer vor, einen allgemeinen Meta-RL-Framework, der es Sprachmodell-Agenten ermöglicht, aktiv zu erkunden und aus Umgebungsrückmeldungen während der Testphase zu lernen. LaMer besteht aus zwei zentralen Komponenten: (i) einem über Episoden hinweg angelegten Trainingsframework, das die Exploration und die Optimierung langfristiger Belohnungen fördert; und (ii) einer kontextbasierten Politikanpassung mittels Reflexion, die es dem Agenten ermöglicht, seine Politik anhand von Aufgabenrückmeldungen anzupassen, ohne Gradientenupdates durchführen zu müssen. Experimente in vielfältigen Umgebungen zeigen, dass LaMer die Leistung gegenüber RL-Baselines erheblich verbessert – mit Leistungssteigerungen von 11 %, 14 % und 19 % bei Sokoban, MineSweeper und Webshop jeweils. Darüber hinaus zeigt LaMer eine bessere Generalisierungsfähigkeit gegenüber anspruchsvolleren oder bisher nicht gesehenen Aufgaben im Vergleich zu rein RL-geschulten Agenten. Insgesamt belegen unsere Ergebnisse, dass Meta-RL einen fundierten Ansatz darstellt, um Exploration in Sprachagenten zu induzieren und eine robustere Anpassung an neue Umgebungen durch gelernte Erkundungsstrategien zu ermöglichen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp