vor 2 Monaten

Zusammenfassung

Reinforcement Learning (RL) hat die Ausbildung von großen Sprachmodell-Agenten ermöglicht, um mit der Umgebung zu interagieren und Aufgaben mit mehreren Schritten und langer Horizontdauer zu lösen. Allerdings haben RL-geschulte Agenten oft Schwierigkeiten bei Aufgaben, die aktive Exploration erfordern, und sind nicht in der Lage, effizient aus Erfahrungen durch Ausprobieren und Fehlschlagen zu lernen. In diesem Paper stellen wir LaMer vor, einen allgemeinen Meta-RL-Framework, der es Sprachmodell-Agenten ermöglicht, aktiv zu erkunden und aus Umgebungsrückmeldungen während der Testphase zu lernen. LaMer besteht aus zwei zentralen Komponenten: (i) einem über Episoden hinweg angelegten Trainingsframework, das die Exploration und die Optimierung langfristiger Belohnungen fördert; und (ii) einer kontextbasierten Politikanpassung mittels Reflexion, die es dem Agenten ermöglicht, seine Politik anhand von Aufgabenrückmeldungen anzupassen, ohne Gradientenupdates durchführen zu müssen. Experimente in vielfältigen Umgebungen zeigen, dass LaMer die Leistung gegenüber RL-Baselines erheblich verbessert – mit Leistungssteigerungen von 11 %, 14 % und 19 % bei Sokoban, MineSweeper und Webshop jeweils. Darüber hinaus zeigt LaMer eine bessere Generalisierungsfähigkeit gegenüber anspruchsvolleren oder bisher nicht gesehenen Aufgaben im Vergleich zu rein RL-geschulten Agenten. Insgesamt belegen unsere Ergebnisse, dass Meta-RL einen fundierten Ansatz darstellt, um Exploration in Sprachagenten zu induzieren und eine robustere Anpassung an neue Umgebungen durch gelernte Erkundungsstrategien zu ermöglichen.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 2 Monaten

Yulun Jiang Liangze Jiang Damien Teney Michael Moor Maria Brbic

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 2 Monaten

Yulun Jiang Liangze Jiang Damien Teney Michael Moor Maria Brbic

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Meta-RL fördert die Exploration bei Sprach-Agenten

Yulun Jiang Liangze Jiang Damien Teney Michael Moor Maria Brbic

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Meta-RL fördert die Exploration bei Sprach-Agenten

Yulun Jiang Liangze Jiang Damien Teney Michael Moor Maria Brbic

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Meta-RL fördert die Exploration bei Sprach-Agenten

Yulun Jiang Liangze Jiang Damien Teney Michael Moor Maria Brbic

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters