HyperAIHyperAI

Command Palette

Search for a command to run...

التصوير بالفيديو الشامل للدلالات: مجموعة بيانات معيارية وقاعدة أولية

Li Cheng Alan L. Yuille Jiaying Zhao Zongwei Zhou Cheng Bian Jingjing Li Wei Ji

الملخص

التفكيك الدلالي القوي والموثوق في المشاهد المعقدة أمر بالغ الأهمية لتطبيقات حقيقية عديدة مثل القيادة الآلية الآمنة وإنقاذ الليل. في معظم النهج، يُعد استخدام الصور الملونة (RGB) كمدخلات أمرًا شائعًا. ومع ذلك، فإن هذه الطريقة تعمل بشكل جيد فقط في الظروف الجوية المثالية؛ فعند مواجهة ظروف غير مواتية مثل المطر أو الإضاءة الزائدة أو الإضاءة المنخفضة، غالبًا ما تفشل في تقديم نتائج مرضية. وقد أدى ذلك إلى التحقيق الأخير في التفكيك الدلالي متعدد الطيف، حيث يتم استخدام كل من الصور الملونة (RGB) والصور تحت الحمراء الحرارية (RGBT) كمدخلات. وهذا يُحدث تحسينًا كبيرًا في دقة التفكيك الدلالي للأجسام في المشاهد المعقدة وفي الظروف الصعبة. ومع ذلك، فإن التركيز الحالي على استخدام صورة RGBT واحدة يحد من قدرة الطرق الحالية على معالجة المشاهد الحقيقية الديناميكية بشكل فعّال. مستوحى من هذه الملاحظات، نسعى في هذا البحث إلى معالجة مهمة نسبيًا جديدة، وهي التفكيك الدلالي للدخول متعدد الطيف في الفيديو، والتي نسميها في هذا العمل "التفكيك الدلالي للفيديو متعدد الطيف" أو اختصارًا MVSS. ولذلك، تم إعداد مجموعة بيانات داخلية خاصة بنا تُسمى MVSeg، تتكون من 738 فيديو مُصحَّحًا من الصور الملونة والحرارية، مصحوبة بـ 3,545 تسمية دلالية دقيقة على مستوى البكسل لـ 26 فئة. تحتوي مجموعة البيانات هذه على طيف واسع من المشاهد الحضرية الصعبة في كل من النهار والليل. علاوةً على ذلك، نقترح نموذجًا أساسيًا فعّالًا للـ MVSS، يُسمى MVNet، والذي يُعد، إلى حد علمنا، أول نموذج يتعلم تمثيلات دلالية مشتركة من السياقات متعددة الطيف والسياقات الزمنية معًا. أُجريت تجارب شاملة باستخدام نماذج مختلفة للتفكيك الدلالي على مجموعة بيانات MVSeg. وتبين تجريبيًا أن استخدام الدخول متعددة الطيف في الفيديو يؤدي إلى تحسن ملحوظ في التفكيك الدلالي؛ كما تم التحقق من فعالية النموذج الأساسي MVNet.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
التصوير بالفيديو الشامل للدلالات: مجموعة بيانات معيارية وقاعدة أولية | مستندات | HyperAI