HyperAIHyperAI

Command Palette

Search for a command to run...

التدفق الملون (RGB) كافٍ للكشف عن الإجراءات الزمنية

Chenhao Wang Hongxiang Cai Yuxin Zou Yichao Xiong

الملخص

حتى الآن، تعتمد أحدث كاشفات الأفعال الزمنية على مدخلات ثنائية التدفق تتضمن إطارات RGB وتدفق بصري. وعلى الرغم من أن دمج إطارات RGB وتدفق بصري يُحسّن الأداء بشكل كبير، فإن التدفق البصري يُعد تمثيلًا مصممًا يدويًا، مما يتطلب حسابات مكثفة، ويُعتبر أيضًا غير راضٍ من الناحية المنهجية، حيث لا يتم تدريب الطرق ثنائية التدفق غالبًا بشكل متكامل من البداية إلى النهاية مع التدفق. في هذه الورقة، نُقدّم رأيًا بأن التدفق البصري غير ضروري في كشف الأفعال الزمنية بدقة عالية، وأن التكبير على مستوى الصورة (ILDA) هو الحل الأساسي لمنع التدهور في الأداء عند إزالة التدفق البصري. لاختبار فعالية ILDA، قمنا بتصميم كاشف أفعال زمنية من مرحلة واحدة بسيط وفعال يعتمد على تدفق RGB الوحيد، يُسمى DaoTAD. تُظهر نتائجنا أن DaoTAD، عند تدريبه باستخدام ILDA، يحقق دقة مماثلة لأفضل الطرق ثنائية التدفق الحالية، في حين يتفوق بشكل كبير في سرعة الاستدلال مقارنة بالطرق السابقة، حيث تصل سرعة الاستدلال إلى 6668 إطارًا في الثانية على بطاقة GeForce GTX 1080 Ti. يمكن الوصول إلى الكود من خلال الرابط: \url{https://github.com/Media-Smart/vedatad}.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp