HyperAIHyperAI
منذ 17 أيام

D2-Net: التعرف على الإجراءات المُشرَّفة بشكل ضعيف من خلال التضمينات التمييزية والتنشيطات المنظفة

Sanath Narayan, Hisham Cholakkal, Munawar Hayat, Fahad Shahbaz Khan, Ming-Hsuan Yang, Ling Shao
D2-Net: التعرف على الإجراءات المُشرَّفة بشكل ضعيف من خلال التضمينات التمييزية والتنشيطات المنظفة
الملخص

تقدم هذه الدراسة إطارًا لتحديد الحركات الزمنية بمساعدة ضعيفة يُسمى D2-Net، يسعى إلى تحديد الحركات زمنيًا باستخدام مراقبة على مستوى الفيديو. يكمن الإسهام الرئيسي في اقتراح صيغة خسارة جديدة، تُعزز بشكل مشترك تمييز المُدمجات الخفية (latent embeddings) ومتانة التفاعلات الزمنية للتصنيف الناتجة تجاه الضوضاء الناتجة عن التمييز بين الخلفية والمضمون (foreground-background noise) الناتجة عن المراقبة الضعيفة. تتضمن الصيغة المقترحة مصطلحين للخسارة: مصطلح تمييزي وآخر لتنقية الضوضاء، بهدف تحسين دقة تحديد الحركات الزمنية. يُدمج المصطلح التمييزي في خسارة التصنيف ويستفيد من آلية انتباه من الأعلى إلى الأسفل لتعزيز الفصل بين المُدمجات الخفية للمضمون والخلفية. أما مصطلح خسارة التنقية، فيعالج الضوضاء بين المضمون والخلفية في تفاعلات التصنيف من خلال تعظيم المعلومات التبادلية داخل الفيديو وخارج الفيديو في آنٍ واحد، باستخدام آلية انتباه من الأسفل إلى الأعلى. نتيجة لذلك، تُعزز التفاعلات في مناطق المضمون بينما تُقمع التفاعلات في مناطق الخلفية، مما يؤدي إلى تنبؤات أكثر متانة. أُجريت تجارب شاملة على عدة معايير معيارية، بما في ذلك THUMOS14 وActivityNet1.2. أظهرت نتائج D2-Net أداءً متميزًا مقارنة بالطرق الحالية على جميع المجموعات، محققة مكاسب تصل إلى 2.3% في متوسط الدقة (mAP) عند حدّ التداخل (IoU) = 0.5 على THUMOS14. يُتاح كود المصدر عبر الرابط: https://github.com/naraysa/D2-Net