HyperAIHyperAI
منذ 11 أيام

التدفق الملون (RGB) كافٍ للكشف عن الإجراءات الزمنية

Chenhao Wang, Hongxiang Cai, Yuxin Zou, Yichao Xiong
التدفق الملون (RGB) كافٍ للكشف عن الإجراءات الزمنية
الملخص

حتى الآن، تعتمد أحدث كاشفات الأفعال الزمنية على مدخلات ثنائية التدفق تتضمن إطارات RGB وتدفق بصري. وعلى الرغم من أن دمج إطارات RGB وتدفق بصري يُحسّن الأداء بشكل كبير، فإن التدفق البصري يُعد تمثيلًا مصممًا يدويًا، مما يتطلب حسابات مكثفة، ويُعتبر أيضًا غير راضٍ من الناحية المنهجية، حيث لا يتم تدريب الطرق ثنائية التدفق غالبًا بشكل متكامل من البداية إلى النهاية مع التدفق. في هذه الورقة، نُقدّم رأيًا بأن التدفق البصري غير ضروري في كشف الأفعال الزمنية بدقة عالية، وأن التكبير على مستوى الصورة (ILDA) هو الحل الأساسي لمنع التدهور في الأداء عند إزالة التدفق البصري. لاختبار فعالية ILDA، قمنا بتصميم كاشف أفعال زمنية من مرحلة واحدة بسيط وفعال يعتمد على تدفق RGB الوحيد، يُسمى DaoTAD. تُظهر نتائجنا أن DaoTAD، عند تدريبه باستخدام ILDA، يحقق دقة مماثلة لأفضل الطرق ثنائية التدفق الحالية، في حين يتفوق بشكل كبير في سرعة الاستدلال مقارنة بالطرق السابقة، حيث تصل سرعة الاستدلال إلى 6668 إطارًا في الثانية على بطاقة GeForce GTX 1080 Ti. يمكن الوصول إلى الكود من خلال الرابط: \url{https://github.com/Media-Smart/vedatad}.

التدفق الملون (RGB) كافٍ للكشف عن الإجراءات الزمنية | أحدث الأوراق البحثية | HyperAI