17日前

複数無人航空機ナビゲーション制御を目的とした、融合型マルチアクター注意機構・クライティックを用いたマルチエージェント強化学習

{Dugki Min, Hyeonseo Cho, Hyungeun Jo, Tuan Anh Nguyen, Vishnu Kumar Kaliappan, Hoeun Lee, Sangwoo Jeon}
要約

無人航空機(UAV)の普及に伴い、多様なインテリジェントサービスが登場しており、効率的な連携が協調的実行の効果を高める上で重要な役割を果たしている。しかし、UAVの作動時間および航続距離に限界があることから、特に未知の動的環境においては、高度に効率的な連携行動を実現することは困難である。本研究では、複数UAVのエネルギー効率的な協調ナビゲーション制御を実現するため、マルチエージェント深層強化学習(MADRL)に基づく「融合型マルチアクター・アテンション・クリティック(F-MAAC)モデル」を提案する。本モデルは、マルチアクター・アテンション・クリティック(MAAC)モデルを基盤として構築されており、以下の2つの重要な進展を実現している。第一に、センサ融合層を導入し、アクターネットワークがすべての必要なセンサ情報を効果的に活用できるようにした。第二に、MAACモデルのアテンション層によって失われた情報の補償を目的として、異なるエージェント間の相違度重みを計算する層を追加した。提案モデルの学習とエネルギー効率性の検証には、Unityエンジンによって構築されたUAV LDS(ロジスティクス配送サービス)環境を用いた。UAVの総走行距離を測定する指標をUAV LDS環境に組み込み、エネルギー効率性の検証を実施した。提案モデルの性能を評価するため、2つの実用ケースを用いてF-MAACモデルを複数の従来型強化学習モデルと比較した。まず、20,000エピソードの学習における平均エピソード報酬に基づき、F-MAACモデルをDDPG、MADDPG、MAACモデルと比較した。その後、性能上位2モデル(F-MAACおよびMAAC)を選定し、さらに150,000エピソードにわたって再学習を行った。エネルギー効率性を評価する指標として、同一期間内に完了した配送件数および同一走行距離あたりの配送件数を用いた。シミュレーション結果によると、F-MAACモデルはMAACモデルを上回り、3,000タイムステップ内で38%多い配送を実現し、走行距離1,000mあたり30%多い配送を達成した。