تصنيف الفيديو الدقيق مع انتباه خفض التكرار

للمهام التصنيف الدقيق، يمكن أن تكون مقاطع الفيديو مصدرًا أفضل من الصور الثابتة نظرًا لزيادة احتمالية احتواء الفيديو على أنماط تمييزية. ومع ذلك، قد تحتوي سلسلة فيديو أيضًا على الكثير من الإطارات الزائدة وغير ذات الصلة. تحديد المعلومات الحرجة المطلوبة هو مهمة صعبة. في هذا البحث، نقترح بنية شبكة جديدة تُعرف بـ "الانتباه إلى الحد من الأشياء الزائدة" (Redundancy Reduction Attention - RRA)، والتي تتعلم التركيز على عدة أنماط تمييزية عبر كبت القنوات المميزة الزائدة. بشكل محدد، تقوم هذه الطريقة أولاً بتلخيص الفيديو عن طريق جمع جميع متجهات الخصائص في خرائط الخصائص للإطارات المختارة باستخدام انتباه مكاني-زماني ناعم، ثم تتوقع القنوات التي يجب كبتها أو تعزيزها وفقًا لهذا التلخيص باستخدام تحويل غير خطي تم تعلمه. يتم تحقيق الكبت عن طريق ضبط خرائط الخصائص وإخراج التنشيطات الضعيفة. يتم استخدام خرائط الخصائص المحدثة في الجولة التالية. وأخيرًا، يتم تصنيف الفيديو استنادًا إلى عدة تلخيصات. حققت الطريقة المقترحة أداءً متميزًا في عدة مجموعات بيانات لتصنيف الفيديو. بالإضافة إلى ذلك، قمنا بجمع مجموعتين كبيرتين من بيانات الفيديو، YouTube-Birds و YouTube-Cars، لأبحاث المستقبل حول التصنيف الدقيق للفيديو. يمكن الوصول إلى هاتين المجموعتين من البيانات عبر الرابط: http://www.cs.umd.edu/~chenzhu/fgvc.