HyperAIHyperAI
il y a 12 jours

Apprentissage par renforcement multi-agents fondé sur un mécanisme d'attention-critique multi-acteurs-fusion pour le contrôle de navigation de plusieurs UAV

{Dugki Min, Hyeonseo Cho, Hyungeun Jo, Tuan Anh Nguyen, Vishnu Kumar Kaliappan, Hoeun Lee, Sangwoo Jeon}
Résumé

La prolifération des véhicules aériens sans pilote (UAV) a donné naissance à une diversité de services intelligents, dans lesquels une coordination efficace joue un rôle essentiel pour améliorer l’efficacité des exécutions coopératives. Toutefois, en raison de la durée de fonctionnement et de la portée limitées des UAV, atteindre des actions coordonnées hautement efficaces s’avère difficile, notamment dans des environnements inconnus et dynamiques. Ce papier propose un modèle basé sur l’apprentissage par renforcement profond multi-agents (MADRL), appelé F-MAAC (fusion-multiacteur-attention-critic), destiné au contrôle économe en énergie de la navigation coopérative de plusieurs UAV. Le modèle proposé repose sur le cadre MAAC (multiacteur-attention-critic), offrant deux avancées significatives. La première consiste en une couche de fusion de capteurs, permettant au réseau acteur d’utiliser efficacement toutes les informations sensorielles nécessaires. Ensuite, une couche supplémentaire est intégrée pour calculer les poids de dissimilarité entre les différents agents, compensant ainsi l’information perdue par la couche d’attention du modèle MAAC. Nous utilisons l’environnement UAV LDS (logistic delivery service), créé à l’aide du moteur Unity, pour entraîner le modèle proposé et vérifier son efficacité énergétique. Une métrique mesurant la distance totale parcourue par les UAV est intégrée à l’environnement UAV LDS afin de valider l’efficacité énergétique. Pour démontrer les performances du modèle proposé, F-MAAC est comparé à plusieurs modèles classiques d’apprentissage par renforcement sur deux cas d’usage. Premièrement, F-MAAC est comparé aux modèles DDPG, MADDPG et MAAC en termes de récompense moyenne par épisode sur 20 000 épisodes d’entraînement. Les deux meilleurs modèles (F-MAAC et MAAC) sont ensuite sélectionnés et réentraînés sur 150 000 épisodes. Notre étude évalue l’efficacité énergétique à travers deux indicateurs : le nombre total de livraisons effectuées dans une même période, et le nombre total de livraisons réalisées sur une même distance parcourue. Selon nos résultats de simulation, le modèle F-MAAC surpasse significativement le modèle MAAC, réalisant 38 % de livraisons supplémentaires en 3 000 étapes de temps, et 30 % de livraisons supplémentaires pour chaque 1 000 mètres parcourus.

Apprentissage par renforcement multi-agents fondé sur un mécanisme d'attention-critique multi-acteurs-fusion pour le contrôle de navigation de plusieurs UAV | Articles de recherche récents | HyperAI