7ヶ月前

ニューラルネットワーク

モデル学習

アプローチ／フレームワーク

Carlos Riquelme* George Tucker Jasper Snoek

概要

最近の深層強化学習における進歩は、GoやAtariゲームなどの応用分野での性能向上に大きな進展をもたらしました。しかし、複雑なドメインにおいて探索と利用のバランスを取る実用的な手法を開発することは、依然として解決されていません。トンプソンサンプリングとその強化学習への拡張は、モデルの事後サンプルへのアクセスのみを必要とする優雅な探索手法を提供します。一方で、近似ベイジアン手法の進歩により、柔軟なニューラルネットワークモデルの事後分布の近似が実用的になりました。したがって、トンプソンサンプリングフレームワークにおける近似ベイジアンニューラルネットワークの利用を考えるのは魅力的です。近似事後分布を使用するトンプソンサンプリングの影響を理解するために、確立された方法と最近開発された方法を一連のコンテクストバンディット問題でベンチマーク評価を行いました。これらの方法は監督学習設定では成功していましたが、順次意思決定シナリオではパフォーマンスが低下することがわかりました。特に、収束速度が遅い不確実性推定をオンライン設定に適応させる難しさについて指摘しています。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

7ヶ月前

ニューラルネットワーク

モデル学習

アプローチ／フレームワーク

Carlos Riquelme* George Tucker Jasper Snoek

概要

最近の深層強化学習における進歩は、GoやAtariゲームなどの応用分野での性能向上に大きな進展をもたらしました。しかし、複雑なドメインにおいて探索と利用のバランスを取る実用的な手法を開発することは、依然として解決されていません。トンプソンサンプリングとその強化学習への拡張は、モデルの事後サンプルへのアクセスのみを必要とする優雅な探索手法を提供します。一方で、近似ベイジアン手法の進歩により、柔軟なニューラルネットワークモデルの事後分布の近似が実用的になりました。したがって、トンプソンサンプリングフレームワークにおける近似ベイジアンニューラルネットワークの利用を考えるのは魅力的です。近似事後分布を使用するトンプソンサンプリングの影響を理解するために、確立された方法と最近開発された方法を一連のコンテクストバンディット問題でベンチマーク評価を行いました。これらの方法は監督学習設定では成功していましたが、順次意思決定シナリオではパフォーマンスが低下することがわかりました。特に、収束速度が遅い不確実性推定をオンライン設定に適応させる難しさについて指摘しています。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています