HyperAIHyperAI
vor 12 Tagen

Mehragentenverstärkendes Lernen basierend auf Fusion-Multiactor-Attention-Critic für die Navigationsteuerung mehrerer Unbemannter Luftfahrzeuge

{Dugki Min, Hyeonseo Cho, Hyungeun Jo, Tuan Anh Nguyen, Vishnu Kumar Kaliappan, Hoeun Lee, Sangwoo Jeon}
Abstract

Die Verbreitung von unbemannten Luftfahrzeugen (UAVs) hat eine Vielzahl intelligenter Dienstleistungen hervorgebracht, bei denen eine effiziente Koordination eine entscheidende Rolle bei der Steigerung der Wirksamkeit kooperativer Aufgabenübernahme spielt. Aufgrund der begrenzten Betriebszeit und Reichweite von UAVs ist jedoch die Erreichung hochgradig effizienter koordinierter Aktionen schwierig, insbesondere in unbekannten dynamischen Umgebungen. In dieser Arbeit wird ein mehragentenbasiertes Modell des tiefen Verstärkungslernens (MADRL), der Fusions-Multi-Aktor-Attention-Critic (F-MAAC)-Ansatz, für die energiesparende kooperative Navigation mehrerer UAVs vorgeschlagen. Das vorgeschlagene Modell basiert auf dem Multi-Aktor-Attention-Critic (MAAC)-Modell und weist zwei wesentliche Verbesserungen auf. Erstens enthält es eine Sensorfusionsschicht, die es dem Aktor-Netzwerk ermöglicht, sämtliche erforderlichen Sensordaten effektiv zu nutzen. Zweitens wird eine Schicht zur Berechnung der Unterschiedlichkeitsgewichte verschiedener Agenten hinzugefügt, um die durch die Aufmerksamkeits-Schicht des MAAC-Modells verloren gegangene Informationsmenge auszugleichen. Zur Trainings- und Validierung des vorgeschlagenen Modells wird die von der Unity-Engine erstellte UAV-LDS-Umgebung (Logistik-Dienstleistung für Drohnen) genutzt, um die Energieeffizienz zu überprüfen. Die Kenngröße, die die insgesamt zurückgelegte Strecke der UAVs misst, wird in die UAV-LDS-Umgebung integriert, um die Energieeffizienz zu validieren. Um die Leistungsfähigkeit des vorgeschlagenen Modells nachzuweisen, wird das F-MAAC-Modell mit mehreren herkömmlichen Verstärkungslernmodellen anhand zweier Anwendungsbeispiele verglichen. Zunächst erfolgt der Vergleich zwischen F-MAAC, DDPG, MADDPG und MAAC anhand der mittleren Episodenbelohnungen über 20.000 Trainingsepisode. Die beiden besten Modelle (F-MAAC und MAAC) werden anschließend für 150.000 Episode erneut trainiert. In unserer Studie werden die Gesamtanzahl der durchgeführten Lieferungen innerhalb derselben Zeitspanne sowie die Gesamtanzahl der Lieferungen pro zurückgelegter Strecke von 1000 m als Maß für die Energieeffizienz herangezogen. Laut unseren Simulationsergebnissen übertrifft das F-MAAC-Modell das MAAC-Modell deutlich: In 3000 Zeitschritten werden 38 % mehr Lieferungen abgeschlossen, und pro 1000 m zurückgelegter Strecke werden 30 % mehr Lieferungen erbracht.

Mehragentenverstärkendes Lernen basierend auf Fusion-Multiactor-Attention-Critic für die Navigationsteuerung mehrerer Unbemannter Luftfahrzeuge | Neueste Forschungsarbeiten | HyperAI