TSM: وحدة التحول الزمني لفهم الفيديو بكفاءة

النمو المتسارع في بث الفيديو يثير تحديات في أداء فهم الفيديو بدقة عالية وتكلفة حسابية منخفضة. تتميز الشبكات العصبية التقليدية ثنائية الأبعاد (2D CNNs) بأنها رخيصة الحساب لكنها لا تستطيع التقاط العلاقات الزمنية؛ أما الطرق المستندة إلى الشبكات العصبية ثلاثية الأبعاد (3D CNN) فتستطيع تحقيق أداء جيد ولكنها مكثفة الحساب، مما يجعل نشرها مكلفاً. في هذا البحث، نقترح وحدة تحول زمني عامة وفعالة (Temporal Shift Module - TSM) تتمتع بالكفاءة العالية والأداء العالي. وبشكل خاص، يمكنها تحقيق أداء شبكات 3D CNN مع الحفاظ على تعقيد شبكات 2D CNN. تقوم وحدة TSM بنقل جزء من القنوات على البعد الزمني، مما يسهل تبادل المعلومات بين الإطارات المجاورة. يمكن إدراجها في شبكات 2D CNN لتحقيق النمذجة الزمنية دون أي تكلفة حسابية أو معلمات إضافية. كما قمنا بتوسيع نطاق استخدام TSM إلى البيئة المباشرة (online setting)، مما يتيح التعرف على الفيديو والكشف عن الأشياء في الفيديو بشكل مباشر وفي وقت حقيقي وبتأخير منخفض. وحدة TSM دقيقة وكفوءة: عند نشر البحث، احتلت المرتبة الأولى في قائمة Something-Something؛ وعلى أجهزة Jetson Nano و Galaxy Note8، حققت تأخيراً منخفضاً بلغ 13 مللي ثانية و 35 مللي ثانية للتعرف على الفيديو بشكل مباشر. الرمز البرمجي متاح على الرابط التالي:https://github.com/mit-han-lab/temporal-shift-module.