2ヶ月前

効率的な反実仮想学習のバンディットフィードバックからの学習

Yusuke Narita; Shota Yasui; Kohei Yata
効率的な反実仮想学習のバンディットフィードバックからの学習
要約

バンディットフィードバックから得られるバッチデータを使用して、オフポリシ評価と最適化を行う最も統計的に効率的な方法は何ですか?コンテクスチュアルバンディットアルゴリズムによって生成されたログデータについて、カウンターファクトポリシーからの期待報酬のオフライン推定器を検討します。我々の推定器は、広範な推定器クラスにおいて最小の分散を持つことが示されており、標準的な推定器に対して分散を低減しています。次に、我々の推定器を大手広告会社の広告デザイン改善に適用しました。理論的な結果と一致するように、我々の推定器は最先端のベンチマークと比較してより統計的な信頼性を持って既存のバンディットアルゴリズムを改善することを可能にしています。