اكتشاف الأفعال بدقة عالية باستخدام معلومات RGB والوضعية من خلال شبكات التوافقي ثنائية التيار

كمساهمين في مهمة MediaEval 2022 للرياضة، نقترح نهجًا يتكون من شبكة ثنائية التدفق لتصنيف وكشف ضربات كرة الطاولة. يتمثل كل تدفق في سلسلة من كتل الشبكات العصبية المتكررة ثلاثية الأبعاد (CNN) التي تستخدم آليات الانتباه. يعالج كل تدفق مدخلات رباعية الأبعاد مختلفة. يستخدم أسلوبنا بيانات RGB الخام ومعلومات الوضع المحسوبة باستخدام أداة MMPose. يتم معالجة معلومات الوضع كصورة من خلال تطبيق الوضع إما على خلفية سوداء أو على الإطار الأصلي RGB الذي تم حسابه منه. يتم الحصول على أفضل الأداء بتغذية بيانات RGB الخام إلى أحد التدفقات، ومعلومات PRGB (Pose + RGB) إلى التدفق الآخر، ثم تطبيق الاندماج المتأخر على الخصائص. تم تقييم الأساليب على مجموعات البيانات TTStroke-21 المقدمة. يمكننا الإبلاغ عن تحسن في تصنيف الضربات، حيث وصلت الدقة إلى 87.3٪، بينما لم يتفوق الكشف على النموذج الأساسي ولكنه لا يزال يصل إلى تقاطع أكثر من اتحاد (IoU) قدره 0.349 ومتوسط دقة الموقع (mAP) قدره 0.110.