TadML: ك detecction سريع للإجراءات الزمنية باستخدام Mechanics-MLP

كشف التصرف الزمني (Temporal Action Detection - TAD) يُعد مهمة بالغة الأهمية ولكنها صعبة في مجال فهم الفيديو. ويتضمن الهدف من هذه المهمة تحديد نوع كل حدث تصرف، بالإضافة إلى تحديد الإطارات الابتدائية والنهاية لكل حالة تصرف في فيديو طويل غير مُحرَّر. تعتمد معظم النماذج الحالية على تدفقي الصور RGB وتدفق الضوء (Optical-Flow) معًا في مهمة TAD. وبالتالي، يتطلب تحويل الإطارات الأصلية من صيغة RGB إلى صيغة تدفق الضوء يدويًا، مما يستهلك وقتًا وحسابات إضافية، ما يشكل عائقًا أمام تحقيق معالجة في الزمن الفعلي. في الوقت الحالي، تعتمد العديد من النماذج استراتيجيات ثنائية المراحل، مما يؤدي إلى تباطؤ سرعة الاستدلال وتتطلب ضبطًا معقدًا لعمليات إنشاء الاقتراحات. بالمقابل، نقترح منهجية واحدة المرحلة وبدون مُعلِّقات (anchor-free) للتحديد الزمني، تعتمد فقط على تدفق RGB، حيث تم بناء بنية مبتكرة تُسمى "MLP الميكانيكا نيوتنية" (Newtonian Mechanics-MLP). تحقق هذه البنية دقة مماثلة لجميع النماذج الرائدة الحالية، مع تفوق كبير في سرعة الاستدلال مقارنةً بهذه الطرق. تبلغ السرعة المتوسطة للاستدلال في هذه الدراسة 4.44 فيديو في الثانية على مجموعة بيانات THUMOS14، وهو رقم مذهل. وفي التطبيقات العملية، وبسبب عدم الحاجة إلى تحويل تدفق الضوء، ستكون سرعة الاستدلال أسرع. كما تثبت هذه الدراسة أن نموذج MLP يمتلك إمكانات كبيرة في المهام اللاحقة مثل TAD. يمكن الوصول إلى الكود المصدري عبر الرابط: https://github.com/BonedDeng/TadML