Command Palette
Search for a command to run...
DAFA: تجميع الميزات الواعية بالتنوع للكشف عن الكائنات في الفيديو القائم على الانتباه
DAFA: تجميع الميزات الواعية بالتنوع للكشف عن الكائنات في الفيديو القائم على الانتباه
Ki-Seok Chung Si-Dong Roh
الملخص
نقدم إطارًا للكشف عن الكائنات في الفيديو القائم على الانتباه، باستخدام خوارزمية إدارة ذاكرة خارجية بسيطة وفعّالة. تم اعتماد آلية الانتباه في مهمة كشف الكائنات في الفيديو لتعزيز ميزات الإطارات الأساسية باستخدام الإطارات المجاورة. وعلى الرغم من أن العديد من الدراسات الحديثة استخدمت ذاكرة على مستوى الإطار (FIFO) لجمع المعلومات الفيديو الشاملة، فإن بنية الذاكرة هذه تعاني من كفاءة جمع منخفضة، مما يؤدي إلى أداء منخفض في الانتباه وتكاليف حسابية عالية. ولحل هذه المشكلة، طوّرنا مخططًا جديدًا يُسمى تجميع الميزات الواعية بالتنوع (DAFA). في حين أن الطرق الأخرى لا تُخزّن معلومات ميزات كافية دون توسيع سعة الذاكرة، فإن DAFA تجمع بشكل فعّال ميزات متنوعة مع تجنّب التكرار باستخدام مقياس بسيط يعتمد على المسافة الإقليدية. أظهرت النتائج التجريبية على مجموعة بيانات ImageNet VID أن نموذجنا الخفيف ذات الانتباه الشامل يحقق 83.5 ميAP باستخدام هيكل ResNet-101، متفوّقًا على معظم الطرق الحالية من حيث الدقة مع أقل وقت تشغيل ممكن. كما حقق نموذجنا الذي يدمج مراحل الانتباه العالمي والمحلي 84.5 و85.9 ميAP على التوالي باستخدام هيكل ResNet-101 وResNeXt-101، محقّقًا بذلك أداءً من الطراز الرائد دون الحاجة إلى طرق معالجة ما بعدية إضافية.