Meta-RL fördert die Exploration bei Sprach-Agenten
Meta-RL fördert die Exploration bei Sprach-Agenten
Yulun Jiang Liangze Jiang Damien Teney Michael Moor Maria Brbic
Abstract
Reinforcement Learning (RL) hat die Ausbildung von großen Sprachmodell-Agenten ermöglicht, um mit der Umgebung zu interagieren und Aufgaben mit mehreren Schritten und langer Horizontdauer zu lösen. Allerdings haben RL-geschulte Agenten oft Schwierigkeiten bei Aufgaben, die aktive Exploration erfordern, und sind nicht in der Lage, effizient aus Erfahrungen durch Ausprobieren und Fehlschlagen zu lernen. In diesem Paper stellen wir LaMer vor, einen allgemeinen Meta-RL-Framework, der es Sprachmodell-Agenten ermöglicht, aktiv zu erkunden und aus Umgebungsrückmeldungen während der Testphase zu lernen. LaMer besteht aus zwei zentralen Komponenten: (i) einem über Episoden hinweg angelegten Trainingsframework, das die Exploration und die Optimierung langfristiger Belohnungen fördert; und (ii) einer kontextbasierten Politikanpassung mittels Reflexion, die es dem Agenten ermöglicht, seine Politik anhand von Aufgabenrückmeldungen anzupassen, ohne Gradientenupdates durchführen zu müssen. Experimente in vielfältigen Umgebungen zeigen, dass LaMer die Leistung gegenüber RL-Baselines erheblich verbessert – mit Leistungssteigerungen von 11 %, 14 % und 19 % bei Sokoban, MineSweeper und Webshop jeweils. Darüber hinaus zeigt LaMer eine bessere Generalisierungsfähigkeit gegenüber anspruchsvolleren oder bisher nicht gesehenen Aufgaben im Vergleich zu rein RL-geschulten Agenten. Insgesamt belegen unsere Ergebnisse, dass Meta-RL einen fundierten Ansatz darstellt, um Exploration in Sprachagenten zu induzieren und eine robustere Anpassung an neue Umgebungen durch gelernte Erkundungsstrategien zu ermöglichen.
Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.