HyperAIHyperAI
منذ 17 أيام

التصوير بالفيديو الشامل للدلالات: مجموعة بيانات معيارية وقاعدة أولية

{Li Cheng, Alan L. Yuille, Jiaying Zhao, Zongwei Zhou, Cheng Bian, Jingjing Li, Wei Ji}
التصوير بالفيديو الشامل للدلالات: مجموعة بيانات معيارية وقاعدة أولية
الملخص

التفكيك الدلالي القوي والموثوق في المشاهد المعقدة أمر بالغ الأهمية لتطبيقات حقيقية عديدة مثل القيادة الآلية الآمنة وإنقاذ الليل. في معظم النهج، يُعد استخدام الصور الملونة (RGB) كمدخلات أمرًا شائعًا. ومع ذلك، فإن هذه الطريقة تعمل بشكل جيد فقط في الظروف الجوية المثالية؛ فعند مواجهة ظروف غير مواتية مثل المطر أو الإضاءة الزائدة أو الإضاءة المنخفضة، غالبًا ما تفشل في تقديم نتائج مرضية. وقد أدى ذلك إلى التحقيق الأخير في التفكيك الدلالي متعدد الطيف، حيث يتم استخدام كل من الصور الملونة (RGB) والصور تحت الحمراء الحرارية (RGBT) كمدخلات. وهذا يُحدث تحسينًا كبيرًا في دقة التفكيك الدلالي للأجسام في المشاهد المعقدة وفي الظروف الصعبة. ومع ذلك، فإن التركيز الحالي على استخدام صورة RGBT واحدة يحد من قدرة الطرق الحالية على معالجة المشاهد الحقيقية الديناميكية بشكل فعّال. مستوحى من هذه الملاحظات، نسعى في هذا البحث إلى معالجة مهمة نسبيًا جديدة، وهي التفكيك الدلالي للدخول متعدد الطيف في الفيديو، والتي نسميها في هذا العمل "التفكيك الدلالي للفيديو متعدد الطيف" أو اختصارًا MVSS. ولذلك، تم إعداد مجموعة بيانات داخلية خاصة بنا تُسمى MVSeg، تتكون من 738 فيديو مُصحَّحًا من الصور الملونة والحرارية، مصحوبة بـ 3,545 تسمية دلالية دقيقة على مستوى البكسل لـ 26 فئة. تحتوي مجموعة البيانات هذه على طيف واسع من المشاهد الحضرية الصعبة في كل من النهار والليل. علاوةً على ذلك، نقترح نموذجًا أساسيًا فعّالًا للـ MVSS، يُسمى MVNet، والذي يُعد، إلى حد علمنا، أول نموذج يتعلم تمثيلات دلالية مشتركة من السياقات متعددة الطيف والسياقات الزمنية معًا. أُجريت تجارب شاملة باستخدام نماذج مختلفة للتفكيك الدلالي على مجموعة بيانات MVSeg. وتبين تجريبيًا أن استخدام الدخول متعددة الطيف في الفيديو يؤدي إلى تحسن ملحوظ في التفكيك الدلالي؛ كما تم التحقق من فعالية النموذج الأساسي MVNet.

التصوير بالفيديو الشامل للدلالات: مجموعة بيانات معيارية وقاعدة أولية | أحدث الأوراق البحثية | HyperAI