HyperAIHyperAI

Command Palette

Search for a command to run...

Console

Meta-RL fördert die Exploration bei Sprach-Agenten

Yulun Jiang Liangze Jiang Damien Teney Michael Moor Maria Brbic

Abstract

Reinforcement Learning (RL) hat die Ausbildung von großen Sprachmodell-Agenten ermöglicht, um mit der Umgebung zu interagieren und Aufgaben mit mehreren Schritten und langer Horizontdauer zu lösen. Allerdings haben RL-geschulte Agenten oft Schwierigkeiten bei Aufgaben, die aktive Exploration erfordern, und sind nicht in der Lage, effizient aus Erfahrungen durch Ausprobieren und Fehlschlagen zu lernen. In diesem Paper stellen wir LaMer vor, einen allgemeinen Meta-RL-Framework, der es Sprachmodell-Agenten ermöglicht, aktiv zu erkunden und aus Umgebungsrückmeldungen während der Testphase zu lernen. LaMer besteht aus zwei zentralen Komponenten: (i) einem über Episoden hinweg angelegten Trainingsframework, das die Exploration und die Optimierung langfristiger Belohnungen fördert; und (ii) einer kontextbasierten Politikanpassung mittels Reflexion, die es dem Agenten ermöglicht, seine Politik anhand von Aufgabenrückmeldungen anzupassen, ohne Gradientenupdates durchführen zu müssen. Experimente in vielfältigen Umgebungen zeigen, dass LaMer die Leistung gegenüber RL-Baselines erheblich verbessert – mit Leistungssteigerungen von 11 %, 14 % und 19 % bei Sokoban, MineSweeper und Webshop jeweils. Darüber hinaus zeigt LaMer eine bessere Generalisierungsfähigkeit gegenüber anspruchsvolleren oder bisher nicht gesehenen Aufgaben im Vergleich zu rein RL-geschulten Agenten. Insgesamt belegen unsere Ergebnisse, dass Meta-RL einen fundierten Ansatz darstellt, um Exploration in Sprachagenten zu induzieren und eine robustere Anpassung an neue Umgebungen durch gelernte Erkundungsstrategien zu ermöglichen.


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Meta-RL fördert die Exploration bei Sprach-Agenten | Papers | HyperAI