HyperAIHyperAI
vor 2 Monaten

Tiefe Bayes'sche Bandits im Vergleich: Eine empirische Analyse von Bayes'schen Tiefen Netzen für Thompson-Sampling

Carlos Riquelme; George Tucker; Jasper Snoek
Tiefe Bayes'sche Bandits im Vergleich: Eine empirische Analyse von Bayes'schen Tiefen Netzen für Thompson-Sampling
Abstract

Kürzliche Fortschritte im Bereich des tiefen Reinforcement Learnings haben erhebliche Verbesserungen bei Anwendungen wie Go und Atari-Spiele erzielt. Dennoch bleibt die Entwicklung praktischer Methoden zur Ausgewogenheit von Exploration und Exploitation in komplexen Domänen weitgehend ungelöst. Thompson Sampling und dessen Erweiterung auf Reinforcement Learning bieten einen eleganten Ansatz zur Exploration, der nur den Zugriff auf posteriore Stichproben des Modells erfordert. Gleichzeitig haben Fortschritte in approximativen Bayes'schen Methoden es praktikabel gemacht, posteriore Approximationen für flexible Neuronale Netze zu berechnen. Daher ist es attraktiv, approximative Bayes'sche Neuronale Netze in einem Thompson Sampling Rahmen zu betrachten. Um den Einfluss der Verwendung einer approximativen Posteriori-Verteilung auf Thompson Sampling zu verstehen, vergleichen wir etablierte und neu entwickelte Methoden zur approximativen Posteriori-Stichprobenziehung in Kombination mit Thompson Sampling anhand einer Reihe von kontextabhängigen Bandit-Problemen. Wir stellten fest, dass viele Ansätze, die im überwachten Lernszenario erfolgreich waren, im sequentiellen Entscheidungsfindungsprozess unterperformten. Insbesondere betonen wir die Herausforderung, langsam konvergierende Unsicherheitsschätzungen dem Online-Szenario anzupassen.

Tiefe Bayes'sche Bandits im Vergleich: Eine empirische Analyse von Bayes'schen Tiefen Netzen für Thompson-Sampling | Neueste Forschungsarbeiten | HyperAI