UVid-Net: تحسين تقسيم الدلالات لمقاطع الفيديو الجوية من الطائرات بدون طيار من خلال دمج المعلومات الزمنية

تم استخدام تقسيم الدلالة للفيديوهات الجوية على نطاق واسع في اتخاذ القرارات المتعلقة برصد التغيرات البيئية، والتخطيط الحضري، وإدارة الكوارث. تعتمد موثوقية هذه أنظمة دعم القرار على دقة خوارزميات تقسيم الدلالة للفيديو. لقد أImprovedت الطرق الحالية القائمة على الشبكات العصبية الم convoled (CNN) لتقسيم الدلالة للفيديو الطرق المستخدمة في تقسيم الدلالة للصور من خلال إدخال وحدة إضافية مثل LSTM أو التدفق البصري لحساب الديناميكيات الزمنية للفيديو، مما يشكل عبءًا حسابيًا. تهدف العمل البحثي المقترح إلى تعديل هندسة الشبكات العصبية الم convoled (CNN) بإدخال المعلومات الزمنية بهدف تحسين كفاءة تقسيم الدلالة للفيديو.في هذا العمل، تم اقتراح هيكلية محسنة قائمة على المشفّر-المفكك (UVid-Net) للشبكات العصبية الم convoled (CNN) لتقسيم الدلالة لفيديوهات الطائرات بدون طيار (UAV). يقوم المشفّر في الهيكلية المقترحة بتضمين المعلومات الزمنية لتحقيق التسمية الزمنية الثابتة. تم تحسين المفكك من خلال إدخال وحدة تكرار الخصائص (feature-refiner module)، والتي تسهم في تحديد مواقع تصنيفات الفئات بدقة. تم تقييم الأداء الكمي لهيكلية UVid-Net المقترحة لتقسيم الدلالة لفيديوهات الطائرات بدون طيار على مجموعة بيانات ManipalUAVid الموسعة. تم رصد مؤشر أداء mIoU بمقدار 0.79، وهو أعلى بكثير من الخوارزميات الرائدة الأخرى. بالإضافة إلى ذلك، أنتج العمل المقترح نتائج واعدة حتى عند استخدام النموذج المُدرَّب مسبقًا من UVid-Net للمشاهد الحضرية مع ضبط الطبقة النهائية على مقاطع الفيديو الجوية للطائرات بدون طيار (UAV).