HyperAIHyperAI
منذ 11 أيام

التعلم القوي المتعدد الوكالات القائم على انتباه متعدد الوكلاء المُدمج-مُؤَشِّر للتحكم في ملاحة طائرات مُسيرة متعددة

{Dugki Min, Hyeonseo Cho, Hyungeun Jo, Tuan Anh Nguyen, Vishnu Kumar Kaliappan, Hoeun Lee, Sangwoo Jeon}
الملخص

لقد أدى الانتشار الواسع للطائرات غير المأهولة (UAVs) إلى ظهور مجموعة متنوعة من الخدمات الذكية، حيث يُعد التنسيق الفعّال عاملاً محورياً في تعزيز كفاءة التنفيذ التعاوني. ومع ذلك، نظراً لحدود زمن التشغيل والمدى المتاح للطائرات غير المأهولة، يظل تحقيق إجراءات منسقة عالية الكفاءة أمرًا صعبًا، خاصة في البيئات الديناميكية غير المعروفة. تقدم هذه الورقة نموذجًا مدمجًا يعتمد على التعلم العميق المعزز متعدد الوكلاء (MADRL) يُسمى نموذج F-MAAC (Fusion-MultiActor-Attention-Critic) للتحكم في التنقل التعاوني بكفاءة في استهلاك الطاقة بالنسبة لعدة طائرات غير مأهولة. يُبنى النموذج المقترح على أساس نموذج MAAC (MultiActor-Attention-Critic)، ويتميز بتحديثين مهمين. الأول هو طبقة دمج المستشعرات، التي تتيح لشبكة المُنفّذ (actor) الاستفادة الفعّالة من جميع معلومات المستشعرات الضرورية. والثاني هو إضافة طبقة تُحسب أوزان التباين بين الوكلاء المختلفة، بهدف تعويض المعلومات المفقودة نتيجة طبقة الانتباه في نموذج MAAC. وقد استخدمنا بيئة UAV LDS (خدمة التوصيل اللوجستية) التي أنشأتها محرك Unity لتدريب النموذج المقترح والتحقق من كفاءته في استهلاك الطاقة. كما تم دمج معيار يقيس المسافة الإجمالية المقطوعة من قبل الطائرات غير المأهولة ضمن بيئة UAV LDS لتأكيد كفاءة الطاقة. ولإثبات أداء النموذج المقترح، تم مقارنة نموذج F-MAAC مع عدة نماذج تقليدية للتعلم المعزز باستخدام حالتين واقعيتين. أولاً، قورن نموذج F-MAAC مع نماذج DDPG وMADDPG وMAAC بناءً على متوسط مكافآت المهام (episode rewards) خلال 20,000 جلسة تدريب. ثم تم اختيار النموذجين الأفضل أداءً (F-MAAC وMAAC) وإعادة تدريبهما لفترة 150,000 جلسة. وحسبنا في دراستنا الكمية الإجمالية للتسليمات المنجزة خلال نفس الفترة الزمنية، والكمية الإجمالية للتسليمات المُنجزة ضمن نفس المسافة المقطوعة، كمقياس للكفاءة في استهلاك الطاقة. وفقًا لنتائج المحاكاة، تفوق نموذج F-MAAC على نموذج MAAC، حيث نفذ 38% أكثر من التسليمات في 3000 خطوة زمنية، و20% أكثر من التسليمات لكل 1000 متر من المسافة المقطوعة.

التعلم القوي المتعدد الوكالات القائم على انتباه متعدد الوكلاء المُدمج-مُؤَشِّر للتحكم في ملاحة طائرات مُسيرة متعددة | أحدث الأوراق البحثية | HyperAI