vor 3 Tagen

Marissa A. Weis Maciej Wołczyk Rajai Nasser Rif A. Saurous Blaise Agüera y Arcas João Sacramento Alexander Meulemans

Zusammenfassung

Die Herstellung von Kooperation unter selbstinteressierten Agenten bleibt eine grundlegende Herausforderung im mehragentenbasierten Verstärkungslernen. Kürzlich gezeigte Ansätze haben gezeigt, dass gegenseitige Kooperation zwischen „lernbewussten“ Agenten induziert werden kann, die die Lerndynamiken ihrer Mitspieler berücksichtigen und beeinflussen. Allerdings basieren bestehende Methoden typischerweise auf vorgegebenen, oft inkonsistenten Annahmen über die Lernregeln der Mitspieler oder erzwingen eine strikte Trennung zwischen „naiven Lernern“, die auf schnellen Zeitskalen aktualisiert werden, und „Meta-Lernern“, die diese Updates beobachten. Hier zeigen wir, dass die in-Context-Lernfähigkeit von Sequenzmodellen die Bewusstheit bezüglich des Lernens von Mitspielern ermöglicht, ohne dass vorgegebene Annahmen oder eine explizite Zeitskalentrennung erforderlich sind. Wir zeigen, dass die Ausbildung von Sequenzmodell-Agenten gegen eine vielfältige Verteilung von Mitspielern natürlicherweise in-Context-Best-Response-Strategien induziert, die effektiv als Lernalgorithmen auf der schnellen intra-episodischen Zeitskala fungieren. Wir beobachten, dass der in früheren Arbeiten identifizierte Kooperationsmechanismus – bei dem die Anfälligkeit gegenüber Erpressung eine gegenseitige Anpassung hervorruft – sich in diesem Setup natürlich ergibt: Die in-Context-Anpassung macht die Agenten anfällig für Erpressung, und der dadurch entstehende gegenseitige Druck, die Lerndynamik des Gegenübers im Kontext zu beeinflussen, führt letztlich zur Entwicklung kooperativer Verhaltensweisen. Unsere Ergebnisse deuten darauf hin, dass die standardmäßige dezentrale Verstärkungslernstrategie auf Sequenzmodellen in Kombination mit Vielfalt der Mitspieler einen skalierbaren Ansatz für die Entwicklung kooperativer Verhaltensweisen darstellt.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 3 Tagen

Marissa A. Weis Maciej Wołczyk Rajai Nasser Rif A. Saurous Blaise Agüera y Arcas João Sacramento Alexander Meulemans

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 3 Tagen

Marissa A. Weis Maciej Wołczyk Rajai Nasser Rif A. Saurous Blaise Agüera y Arcas João Sacramento Alexander Meulemans

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Zusammenarbeit mehrerer Agenten durch kontextuelle Inferenz von Mitspielern

Marissa A. Weis Maciej Wołczyk Rajai Nasser Rif A. Saurous Blaise Agüera y Arcas João Sacramento Alexander Meulemans

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Zusammenarbeit mehrerer Agenten durch kontextuelle Inferenz von Mitspielern

Marissa A. Weis Maciej Wołczyk Rajai Nasser Rif A. Saurous Blaise Agüera y Arcas João Sacramento Alexander Meulemans

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Zusammenarbeit mehrerer Agenten durch kontextuelle Inferenz von Mitspielern

Marissa A. Weis Maciej Wołczyk Rajai Nasser Rif A. Saurous Blaise Agüera y Arcas João Sacramento Alexander Meulemans

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters