HyperAIHyperAI

Command Palette

Search for a command to run...

Effizientes kontrafaktisches Lernen aus Bandit-Feedback

Yusuke Narita Shota Yasui Kohei Yata

Zusammenfassung

Welches ist der statistisch effizienteste Weg zur Offline-Bewertung und -Optimierung von Batch-Daten aus Bandit-Feedback? Für Logdaten, die durch kontextabhängige Banditalgorithmen generiert wurden, betrachten wir Offline-Schätzer für den erwarteten Nutzen einer kontrafaktischen Politik. Unsere Schätzer weisen in einer breiten Klasse von Schätzern die geringste Varianz auf und erreichen eine Varianzreduzierung im Vergleich zu Standard-Schätzern. Anschließend wenden wir unsere Schätzer an, um das Werbedesign eines großen Werbeunternehmens zu verbessern. Im Einklang mit dem theoretischen Ergebnis ermöglichen uns unsere Schätzer, das bestehende Banditalgorithmus-Verfahren mit größerer statistischer Zuverlässigkeit zu optimieren als ein Stand-of-the-Art-Referenzverfahren.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp