نقل الانتباه أكثر إلى كشف الكائنات البارزة في الفيديو

شهد العقد الماضي ازديادًا متزايدًا في الاهتمام باكتشاف الكائنات البارزة في الفيديو (VSOD). ومع ذلك، كان هناك نقص طويل الأمد في مجتمع البحث في وجود مجموعة بيانات موثقة جيدًا لـ VSOD تمثل المشاهد الديناميكية الحقيقية مع تسميات عالية الجودة. ولحل هذه المشكلة، قمنا بجمع مجموعة بيانات مُسمّاة DAVSOD (DAVSOD: مجموعة بيانات مُسَمّاة بكثافة ومتوافقة مع الانتباه البصري)، والتي تحتوي على 226 فيديو يضمّ 23,938 إطارًا، وتغطي مشاهد واقعية متنوعة، وكائنات وInstances وحركات متنوعة. وباستخدام بيانات التثبيت البصري البشرية الحقيقية المقابلة، تم الحصول على قيم أساسية دقيقة. هذه أول دراسة تُبرز بشكل صريح تحدي "الانزياح في البارزية" (saliency shift)، أي أن الكائن البارز في الفيديو قد يتغير ديناميكيًا. ولمساهمة إضافية في تطوير المجتمع، قمنا بتقييم منهجي لـ 17 خوارزمية متميزة لـ VSOD على سبع مجموعات بيانات موجودة لـ VSOD، بالإضافة إلى مجموعة DAVSOD، بمجموع 84,000 إطار (الأكبر على الإطلاق من حيث الحجم). وباستخدام ثلاث مقاييس شهيرة، قدمنا تحليلًا أداءً شاملاً وواعدًا. علاوةً على ذلك، اقترحنا نموذجًا أساسيًا (baseline) مزودًا بـ convLSTM يُراعي انزياح البارزية، والذي يمكنه التقاط ديناميكية البارزية في الفيديو بكفاءة من خلال تعلّم سلوك تغير الانتباه البشري. وفتحت التجارب الواسعة آفاقًا واعدة لتطوير النماذج ومقارنتها في المستقبل.