NSNet: معمر إزالة غير المميّزات للاعتراف الفيديو الفعّال

من الصعب على أنظمة الذكاء الاصطناعي تحقيق التعرف الدقيق على الفيديو في ظل تكاليف حسابية منخفضة. غالبًا ما تُعتمد طرق التعرف الفعّال على الفيديو القائمة على الاستدلال التكيّفي على معاينة الفيديو وتركيز الانتباه على الأجزاء البارزة لتقليل التكاليف الحسابية. وتركز معظم الدراسات الحالية على الشبكات المعقدة التي تتعلم من خلال أهداف تصنيف الفيديو، حيث تُعامل جميع الإطارات على أنها أمثلة إيجابية، مع إهمال قليل لتمييز الفروق بين الأمثلة الإيجابية (الإطارات البارزة) والسلبية (الإطارات غير البارزة) في عملية التدريب. لسد هذه الفجوة، نقترح في هذا البحث شبكة جديدة تُسمى شبكة قمع غير البارزية (NSNet)، التي تُعد فعّالة في تقليل استجابات الإطارات غير البارزة. بشكل محدد، على مستوى الإطار، يتم إنشاء تسميات افتراضية فعّالة تمكّن من التمييز بين الإطارات البارزة وغير البارزة، لتوجيه تعلم بارزية الإطار. وعلى مستوى الفيديو، يتم تعلّم وحدة انتباه زمنية تحت إشراف مزدوج على تمثيلات كل من الإطارات البارزة وغير البارزة. وتشمل القياسات البارزة من كلا المستويين استغلال المعلومات التكميلية متعددة الحُدود. وقد أثبتت التجارب الواسعة التي أُجريت على أربع معايير معروفة أن NSNet لا تحقق توازنًا متميزًا بين الدقة والكفاءة، بل تُظهر أيضًا سرعة استدلال عملية أسرع بشكل ملحوظ (من 2.4 إلى 4.3 مرة) مقارنةً بالطرق المتطورة حاليًا. يمكن زيارة صفحة المشروع عبر الرابط: https://lawrencexia2008.github.io/projects/nsnet.