2ヶ月前

深層ベイジアンバンディットの対決:トンプソンサンプリングに用いるベイジアン深層ネットワークの経験的比較

Carlos Riquelme; George Tucker; Jasper Snoek
深層ベイジアンバンディットの対決:トンプソンサンプリングに用いるベイジアン深層ネットワークの経験的比較
要約

最近の深層強化学習における進歩は、GoやAtariゲームなどの応用分野での性能向上に大きな進展をもたらしました。しかし、複雑なドメインにおいて探索と利用のバランスを取る実用的な手法を開発することは、依然として解決されていません。トンプソンサンプリングとその強化学習への拡張は、モデルの事後サンプルへのアクセスのみを必要とする優雅な探索手法を提供します。一方で、近似ベイジアン手法の進歩により、柔軟なニューラルネットワークモデルの事後分布の近似が実用的になりました。したがって、トンプソンサンプリングフレームワークにおける近似ベイジアンニューラルネットワークの利用を考えるのは魅力的です。近似事後分布を使用するトンプソンサンプリングの影響を理解するために、確立された方法と最近開発された方法を一連のコンテクストバンディット問題でベンチマーク評価を行いました。これらの方法は監督学習設定では成功していましたが、順次意思決定シナリオではパフォーマンスが低下することがわかりました。特に、収束速度が遅い不確実性推定をオンライン設定に適応させる難しさについて指摘しています。

深層ベイジアンバンディットの対決:トンプソンサンプリングに用いるベイジアン深層ネットワークの経験的比較 | 最新論文 | HyperAI超神経