Forschungsteam präsentiert causale Bellman-Gleichung für schnellere Agenten-Trainingsmethoden.
Forscherteam präsentiert kausale Bellman-Gleichung für schnellere Trainingszeiten von optimalen Agenten Kürzlich haben Dr. Mingxuan Li und sein Team an der Columbia University in den USA eine kausale Bellman-Gleichung vorgeschlagen, die es ermöglicht, die obere Schranke der optimalen Wertfunktion unter Verwendung von Beobachtungsdaten zu berechnen, die möglicherweise störende Variablen enthalten. Wenn diese theoretische Oberschranke zur Gestaltung von Belohnungsfunktionen genutzt wird, konnten die Forscher in speziellen Online-Lernverfahren beweisen, dass die Trainingszeiten für optimale Agenten erheblich verkürzt werden können. Das Team erwartet, dass diese Ergebnisse auf hochdimensionalere und realitätsnähere Roboterprobleme erweitert werden können, um so Belohnungsfunktionen automatisch zu gestalten, die Roboter bei der Ausführung komplexer Aufgaben unterstützen. Die verwendeten Datensätze müssen nicht mehr ausschließlich aus erfolgreichen Aufgabenlöseversuchen von vergleichbaren Robotern stammen, sondern können nun auch Videoaufnahmen von jeglichen intelligenten Agenten mit ähnlichen Fähigkeiten oder sogar menschlichen Demonstrationsvideos umfassen. Bei der Ausbildung von Agenten, insbesondere wenn diese Aufgaben erlernen sollen, bei denen das Fortschreiten des Prozesses nicht eindeutig quantifizierbar ist, sind zusätzliche supervisierende Signale oft unerlässlich. Ein Beispiel hierfür ist das Training eines Roboters, um einen Zauberwürfel zu lösen. Die einfachste Aufgabenvollendungsmetrik ist, ob der Würfel innerhalb einer festgelegten Zeitspanne gelöst wird, ohne währenddessen konkrete Hinweise auf korrekte oder inkorrekte Einzelschritte zu geben. Dieses Eindimensionalität des Erfolgs führt dazu, dass Reinforcement-Learning-Algorithmen kaum effektive Trainingsdaten erzeugen können, da die Wahrscheinlichkeit des Zufallsstreifens auf die richtige Lösung nahe null ist. Ein weiteres Beispiel ist das Spielen von Videospielen. Ohne Zwischenhilfen oder Punktegewinn-Feedback während der Spielzeit fühlen sich Spieler oft verloren, da sie nur am Ende erfahren, ob sie erfolgreich waren. Daher fügen Forscher bei der Ausbildung von Agenten oft zusätzliche Belohnungs- und Strafsignale hinzu, um das Lernen zu erleichtern. Diese Methode, die zusätzliche Belohnungssignale hinzuzufügen, ohne die letztendliche optimale Strategie des Agenten zu beeinflussen, wird als PBRS (Potential Based Reward Shaping) bezeichnet und wurde 1999 von Andrew Ng, einem chinesischen Wissenschaftler, eingeführt. Allerdings führt dies oft zu hohen Kosten in Bezug auf Zeit und Arbeitskraft, da für jede neue Aufgabe individuelle Belohnungssignale entwickelt und angepasst werden müssen. Dies ist in der modernen Welt, in der die Nachfrage nach intelligenten Agenten ständig wächst, nicht nachhaltig. Daher untersuchte das Team, ob es möglich sei, aus vorhandenen Daten direkt eine sinnvolle zusätzliche Belohnungsfunktion zu lernen. Die intuitive Vorgehensweise wäre, die Monte-Carlo-Methode zu verwenden, um die Wertfunktion zu schätzen. Der Wertunterschied zwischen zwei Zuständen könnte dann als zusätzliches Belohnungssignal dienen. Jedoch, wenn die Daten nicht von einem leistungsfähigen Agenten stammen oder störende Variablen enthalten, kann die Monte-Carlo-Schätzung stark verzerrt sein und weit von der optimalen Wertfunktion abweichen. Dr. Li und sein Team erforschten daher, wie kausale Inferenzwerkzeuge verwendet werden können, um automatisch aus mehreren möglicherweise verzerrten Datensätzen sinnvolle Belohnungsfunktionen zu lernen. Sie konnten theoretisch beweisen, warum solche Belohnungsfunktionen die Trainingseffizienz von spezifischen Agenten erheblich steigern. Extensive Experimente bestätigten ihre Theorie. Dr. Li hatte anfangs Zweifel, ob dieser algorithmische Fortschritt die Stichprobenkomplexität erheblich verbessern könnte, da frühere Arbeiten gezeigt hatten, dass die Hinzufügung zusätzlicher Belohnungssignale nach Ng's PBRS-Verfahren in vielen Fällen keine signifikanten Verbesserungen brachte. Sein Doktorvater zeigte ebenfalls Bedauern, da die experimentell beobachteten Leistungssteigerungen nicht erklärt werden konnten. Doch kurz vor seiner Resignation beschloss Li, einige aktuelle Arbeiten zur Komplexitätsanalyse von Online-Explorationsalgorithmen noch einmal gründlich zu studieren, wobei er sich besonders auf die Beweise im Anhang konzentrierte. Es gelang ihm, mehrere Schlussfolgerungen aus verschiedenen Papieren zusammenzubringen, die ihm halfen, seine eigene These zu beweisen. "Dieser Moment der Intuition hat sich später als korrekt erwiesen, und das Ergebnis war sowohl elegant als auch prägnant. Es ist ein besonderes Vergnügen, ähnlich wie beim Finden des letzten Puzzleteils, wenn man nach intensiver Arbeit an Code plötzlich den entscheidenden Beweis findet," so Dr. Li. Die Forschungsergebnisse wurden unter dem Titel "Automatisches Reward-Shaping aus verfälschten Offline-Daten" (Automatic Reward Shaping from Confounded Offline Data) auf der International Conference on Machine Learning (ICML) 2025 veröffentlicht. Das Team plant nun, die theoretische Arbeit auf größere Probleme wie Arcade-Spiele und robotersteuernde Aufgaben mit kontinuierlichen Zustands- und Aktionenräumen zu erweitern. Branchenexperten sehen in dieser Entwicklung eine wichtige Meilenstein in der Automatisierung von Belohnungsfunktionen, die die Skalierbarkeit und Effizienz des Reinforcement-Learnings erheblich steigern kann. Dr. Li und sein Team sind bekannt für ihre innovative Arbeit im Bereich maschinelles Lernen und tragen damit maßgeblich zur Weiterentwicklung der Künstlichen Intelligenz bei.