Command Palette
Search for a command to run...
Dylan M. Asmar Mykel J. Kochenderfer

要約
不確実性下で逐次意思決定タスクを遂行する自律エージェントは、外部からの行動提案によって恩恵を受けることができる。このような提案は貴重なガイダンスを提供するが、その信頼性は本質的に変動する。従来の提案を統合する手法は、一般的に提案者の品質パラメータが静的かつ既知であることを仮定しており、実用的な展開を制限している。本研究では、部分観測環境において提案者の信頼性の変動に動的に学習・適応するフレームワークを提案する。第一に、提案者の品質をエージェントの信念表現に直接組み込み、エージェントが提案者のタイプに関するベイズ推論を通じて提案への信頼度を推定・調整できるようにする。第二に、エージェントが重要瞬間に戦略的に「質問(ask)」行動を実行し、提案の取得による情報の獲得とそのコストの間をバランスさせる仕組みを導入する。実験評価により、異なる提案者品質において堅牢な性能を発揮し、信頼性の変化に適応する能力、および提案要求の戦略的管理が可能であることが示された。本研究は、不確実な環境における提案の不確実性を扱うことで、適応型人間-エージェント協働の基盤を提供する。