{ Jianbing Shen Ming-Ming Cheng Wenguan Wang Deng-Ping Fan}

الملخص
شهد العقد الماضي ازديادًا متزايدًا في الاهتمام باكتشاف الكائنات البارزة في الفيديو (VSOD). ومع ذلك، كان هناك نقص طويل الأمد في مجتمع البحث في وجود مجموعة بيانات موثقة جيدًا لـ VSOD تمثل المشاهد الديناميكية الحقيقية مع تسميات عالية الجودة. ولحل هذه المشكلة، قمنا بجمع مجموعة بيانات مُسمّاة DAVSOD (DAVSOD: مجموعة بيانات مُسَمّاة بكثافة ومتوافقة مع الانتباه البصري)، والتي تحتوي على 226 فيديو يضمّ 23,938 إطارًا، وتغطي مشاهد واقعية متنوعة، وكائنات وInstances وحركات متنوعة. وباستخدام بيانات التثبيت البصري البشرية الحقيقية المقابلة، تم الحصول على قيم أساسية دقيقة. هذه أول دراسة تُبرز بشكل صريح تحدي "الانزياح في البارزية" (saliency shift)، أي أن الكائن البارز في الفيديو قد يتغير ديناميكيًا. ولمساهمة إضافية في تطوير المجتمع، قمنا بتقييم منهجي لـ 17 خوارزمية متميزة لـ VSOD على سبع مجموعات بيانات موجودة لـ VSOD، بالإضافة إلى مجموعة DAVSOD، بمجموع 84,000 إطار (الأكبر على الإطلاق من حيث الحجم). وباستخدام ثلاث مقاييس شهيرة، قدمنا تحليلًا أداءً شاملاً وواعدًا. علاوةً على ذلك، اقترحنا نموذجًا أساسيًا (baseline) مزودًا بـ convLSTM يُراعي انزياح البارزية، والذي يمكنه التقاط ديناميكية البارزية في الفيديو بكفاءة من خلال تعلّم سلوك تغير الانتباه البشري. وفتحت التجارب الواسعة آفاقًا واعدة لتطوير النماذج ومقارنتها في المستقبل.
المعايير القياسية
| معيار قياسي | المنهجية | المقاييس |
|---|---|---|
| video-salient-object-detection-on-davis-2016 | SSAV | AVERAGE MAE: 0.028 MAX E-MEASURE: 0.948 MAX F-MEASURE: 0.861 S-Measure: 0.893 |
| video-salient-object-detection-on-davsod | SSAV | Average MAE: 0.084 S-Measure: 0.755 max E-Measure: 0.806 max F-Measure: 0.659 |
| video-salient-object-detection-on-davsod-1 | SSAV | Average MAE: 0.117 S-Measure: 0.661 max E-measure: 0.723 |
| video-salient-object-detection-on-davsod-2 | SSAV | Average MAE: 0.114 S-Measure: 0.619 max E-measure: 0.696 |
| video-salient-object-detection-on-fbms-59 | SSAV | AVERAGE MAE: 0.040 MAX E-MEASURE: 0.926 MAX F-MEASURE: 0.865 S-Measure: 0.879 |
| video-salient-object-detection-on-mcl | SSAV | AVERAGE MAE: 0.026 MAX E-MEASURE: 0.889 MAX F-MEASURE: 0.773 S-Measure: 0.819 |
| video-salient-object-detection-on-segtrack-v2 | SSAV | AVERAGE MAE: 0.023 MAX F-MEASURE: 0.801 S-Measure: 0.850 max E-measure: 0.917 |
| video-salient-object-detection-on-uvsd | SSAV | Average MAE: 0.025 S-Measure: 0.860 max E-measure: 0.939 |
| video-salient-object-detection-on-visal | SSAV | Average MAE: 0.021 S-Measure: 0.942 max E-measure: 0.980 |
| video-salient-object-detection-on-vos-t | SSAV | Average MAE: 0.074 S-Measure: 0.819 max E-measure: 0.839 |
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.