منذ 4 أشهر

التعلم العميق باستخدام الصور الملونة والحرارية على متن طائرة مسيرة لمراقبة العمليات

{Helmut Prendinger Yutaka Matsuo Mondher Bouazizi Satoshi Suzuki Bastien Rigault Artur Gonçalves Simon Speth}

الملخص

يصف هذا المقال المكون المُعتمد على الذكاء الاصطناعي (AI) في طائرة مُسيرة مُخصصة لمهمات الرصد والدوران المرتبطة بعمليات الإغاثة من الكوارث في سيناريوهات كارثية محددة ومُقيّدة، حسب ما حددته مؤسسة الروبوتات المتقدمة في اليابان. يستخدم المكون المُعتمد على الذكاء الاصطناعي نماذج تعلم عميق لتمييز البيئة واكتشاف الأجسام. ولغرض تمييز البيئة، نستخدم تقنية التجزئة الدلالية (semantic segmentation)، أو التصنيف البكسل-بـبكسسل، بناءً على الصور الملونة (RGB). أما اكتشاف الأجسام فيُعد عنصراً محورياً في اكتشاف الأشخاص المحتاجين وتحديد مواقعهم. وبما أن الأشخاص يُعدّون كائنات صغيرة نسبياً من منظور الطائرة المُسيرة، نستخدم صوراً ملونة (RGB) وصوراً حرارية (thermal) معًا. ولتدريب النماذج، قمنا بإنشاء مجموعة بيانات جديدة متعددة الطيف ومتاحة للجمهور، تتضمن صوراً للأشخاص. استخدمنا طريقة تحديد الموقع الجغرافي (geo-location) لتحديد مواقع الأشخاص على الأرض. وقد تم اختبار نماذج التجزئة الدلالية بشكل واسع باستخدام مستخرجات ميزات مختلفة. كما أنشأنا مجموعتي بيانات مخصصتين، وقمنا بجعلهما متاحتين للجمهور. ومقارنةً بالنموذج الأساسي (baseline)، كان بإمكان أفضل نموذج تحقيق زيادة بنسبة 1.3% في متوسط تقاطع الوحدة (mean Intersection over Union - IoU). علاوة على ذلك، قارنا نوعين من نماذج اكتشاف الأشخاص: الأول هو نموذج مجمّع (ensemble model) يدمج المعلومات من الصور الملونة والحرارية عبر "دمج متأخر" (late fusion)، والثاني هو نموذج رباعي القنوات (4-channel model) يدمج هاتين النوعين من المعلومات بطريقة "دمج مبكر" (early fusion). أظهرت النتائج أن النموذج رباعي القنوات حقق زيادة بنسبة 40.6% في الدقة المتوسطة (average precision) عند قيم IoU الصارمة (0.75) مقارنةً بالنموذج المجمّع، وزيادة بنسبة 5.8% مقارنةً بالنموذج الحراري وحده. تم نشر جميع النماذج واختبارها على منصة NVIDIA AGX Xavier. وبمعرفتنا، فإن هذه الدراسة تمثل أول دراسة تستخدم بيانات ملونة وحرارية معًا من منظور طائرة مُسيرة لأغراض الرصد.

المعايير القياسية

معيار قياسي	المنهجية	المقاييس
multispectral-object-detection-on-nii-cu-mapd	YOLOv3-4‐channel	AP@0.5: 97.9 AP@0.75: 76.9 mAP@0.5:0.95: 64.4
multispectral-object-detection-on-nii-cu-mapd	YOLOv3-Ensemble	AP@0.5: 97.3 AP@0.75: 54.7 mAP@0.5:0.95: 53.4
object-detection-on-nii-cu-mapd	YOLOv3	AP@0.5: 92.4 AP@0.75: 44.5 mAP@0.5:0.95: 48.3
semantic-segmentation-on-okutama-drone-and	DeepLabv3+‐ResNet‐101	Acc: 90.78 mIoU: 65.88
semantic-segmentation-on-okutama-drone-and	DeepLabv3+‐Xception‐65	Acc: 90.72 mIoU: 64.34
semantic-segmentation-on-okutama-drone-and	DeepLabv3+‐ResNet‐50	Acc: 78.65 mIoU: 43.65
semantic-segmentation-on-okutama-drone-and	DeepLabv3+‐Xception‐71	Acc: 74.31 mIoU: 37.81

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي

وحدات معالجة رسومات جاهزة

أفضل الأسعار

ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp