TDN: الشبكات المختلفة الزمنية للتعرف الفعّال على الإجراءات

لا تزال النمذجة الزمنية تحديًا كبيرًا في تمييز الأفعال في الفيديوهات. ولتقليل هذه المشكلة، تقدم هذه الورقة معمارية فيديو جديدة تُسمى شبكة الفرق الزمنية (Temporal Difference Network - TDN)، مع التركيز على التقاط المعلومات الزمنية متعددة المقاييس لتمكين تمييز الأفعال بكفاءة. وتركز TDN الأساسية على تصميم وحدة زمنية فعالة (TDM) من خلال الاستفادة الصريحة من عامل الفرق الزمني، مع تقييم منهجي لتأثيره على نمذجة الحركة قصيرة المدى وطويلة المدى. ولالتقاط المعلومات الزمنية بشكل كامل عبر الفيديو بأكمله، تم بناء TDN باستخدام نموذج نمذجة فرق ثنائي المستوى. وبشكل محدد، تُستخدم الفروق الزمنية بين الإطارات المتتالية في نمذجة الحركة المحلية لتزويد الشبكات العصبية التلافيفية ثنائية الأبعاد (2D CNNs) بأنماط حركة أكثر دقة، بينما تُدمج الفروق الزمنية عبر المقاطع في نمذجة الحركة العالمية لالتقاط البنية بعيدة المدى لتشجيع ميزات الحركة. تقدم TDN إطارًا بسيطًا ومقنعًا للنمذجة الزمنية، ويمكن تطبيقها باستخدام الشبكات العصبية التلافيفية الحالية بتكلفة حسابية إضافية صغيرة جدًا. وقد حققت TDN أداءً جديدًا في مستوى الحد الأقصى على مجموعتي بيانات Something-Something V1 & V2، وتماشى أداءها مع الأفضل في مجموعة بيانات Kinetics-400. بالإضافة إلى ذلك، أجرينا دراسات تحليلية متعمقة (أبلاسيون) وعرضنا نتائج تصورية لنموذج TDN، آملين أن تقدم تحليلات مفيدة حول نمذجة الفروق الزمنية. ونُطلق الكود الخاص بنا على الرابط التالي: https://github.com/MCG-NJU/TDN.