HyperAIHyperAI
vor 2 Monaten

Effizientes kontrafaktisches Lernen aus Bandit-Feedback

Yusuke Narita; Shota Yasui; Kohei Yata
Effizientes kontrafaktisches Lernen aus Bandit-Feedback
Abstract

Welches ist der statistisch effizienteste Weg zur Offline-Bewertung und -Optimierung von Batch-Daten aus Bandit-Feedback? Für Logdaten, die durch kontextabhängige Banditalgorithmen generiert wurden, betrachten wir Offline-Schätzer für den erwarteten Nutzen einer kontrafaktischen Politik. Unsere Schätzer weisen in einer breiten Klasse von Schätzern die geringste Varianz auf und erreichen eine Varianzreduzierung im Vergleich zu Standard-Schätzern. Anschließend wenden wir unsere Schätzer an, um das Werbedesign eines großen Werbeunternehmens zu verbessern. Im Einklang mit dem theoretischen Ergebnis ermöglichen uns unsere Schätzer, das bestehende Banditalgorithmus-Verfahren mit größerer statistischer Zuverlässigkeit zu optimieren als ein Stand-of-the-Art-Referenzverfahren.