تجميع الدلالات على مستوى التسلسل للكشف عن الأشياء في الفيديو

اكتشاف الأشياء في الفيديو (VID) أصبح اتجاهاً بحثياً متزايداً في السنوات الأخيرة. من القضايا المركزية في VID هو تدهور مظهر الإطارات الناتج عن الحركة السريعة. هذه المشكلة تعتبر أساساً غير محددة بشكل جيد بالنسبة لإطار واحد. لذلك، فإن تجميع الخصائص من الإطارات الأخرى يصبح الخيار الطبيعي. تعتمد الطرق الموجودة بشدة على التدفق البصري أو الشبكات العصبية المتكررة لتجميع الخصائص. ومع ذلك، فإن هذه الطرق تركز أكثر على الإطارات المجاورة زمنياً. في هذا العمل، نعتقد أن تجميع الخصائص على مستوى التسلسل الكامل سيؤدي إلى خصائص أكثر تمييزاً ومتانة للكشف عن الأشياء في الفيديو. لتحقيق هذا الهدف، قمنا بتصميم وحدة جديدة لتجميع الدلالات على مستوى التسلسل (SELSA). نوضح أيضاً العلاقة الوثيقة بين الطريقة المقترحة والطريقة التقليدية للتجميع الطيفي، مما يوفر رؤية جديدة لفهم مشكلة VID. قمنا باختبار الطريقة المقترحة على مجموعة بيانات ImageNet VID ومجموعة بيانات EPIC KITCHENS وحققنا نتائج جديدة رائدة في المجال. طريقتنا لا تحتاج إلى طرق معالجة ما بعد المعقدة مثل Seq-NMS أو إعادة تقييم الأنبوب (Tubelet rescoring)، مما يحافظ على خط الأنابيب بسيطاً وواضحاً.