7ヶ月前

監視付き微調整

人間-コンピュータインタラクション

アプローチ／フレームワーク

Bing Liu; Gokhan Tur; Dilek Hakkani-Tur; Pararth Shah; Larry Heck

概要

本研究では、オンラインユーザーとの対話を通じてタスク指向の対話システムを訓練するためのハイブリッド学習方法を提案します。タスク指向の対話学習における一般的な手法には、教師あり事前学習モデルに対してユーザーフィードバックを使用した強化学習が含まれます。このような学習方法の効率は、オフライン学習とオンラインインタラクティブ学習の段階における対話状態分布の不一致により影響を受けます。この課題に対処するために、ヒューマンティーチングとフィードバックから学ぶことで、対話エージェントがユーザーとの対話を通じて効果的に学べるハイブリッド模倣強化学習方法を提案します。私たちは、提案された学習方法で端から端まで最適化できるニューラルネットワークベースのタスク指向対話エージェントを設計しました。実験結果は、当該エンドツーエンド対話エージェントがユーザーからの模倣学習を通じて自身の誤りから効果的に学べることを示しています。また、模倣学習段階後にユーザーフィードバックを使用した強化学習を適用することで、エージェントがタスクを成功裏に完了する能力がさらに向上することが確認されました。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

7ヶ月前

監視付き微調整

人間-コンピュータインタラクション

アプローチ／フレームワーク

Bing Liu; Gokhan Tur; Dilek Hakkani-Tur; Pararth Shah; Larry Heck

概要

本研究では、オンラインユーザーとの対話を通じてタスク指向の対話システムを訓練するためのハイブリッド学習方法を提案します。タスク指向の対話学習における一般的な手法には、教師あり事前学習モデルに対してユーザーフィードバックを使用した強化学習が含まれます。このような学習方法の効率は、オフライン学習とオンラインインタラクティブ学習の段階における対話状態分布の不一致により影響を受けます。この課題に対処するために、ヒューマンティーチングとフィードバックから学ぶことで、対話エージェントがユーザーとの対話を通じて効果的に学べるハイブリッド模倣強化学習方法を提案します。私たちは、提案された学習方法で端から端まで最適化できるニューラルネットワークベースのタスク指向対話エージェントを設計しました。実験結果は、当該エンドツーエンド対話エージェントがユーザーからの模倣学習を通じて自身の誤りから効果的に学べることを示しています。また、模倣学習段階後にユーザーフィードバックを使用した強化学習を適用することで、エージェントがタスクを成功裏に完了する能力がさらに向上することが確認されました。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています