HyperAIHyperAI
منذ 2 أشهر

طريقة الأساس لمهام الرياضة في MediaEval 2022 باستخدام شبكات العصب ثلاثية الأبعاد (3D CNNs) مع آليات الانتباه

Pierre-Etienne Martin
طريقة الأساس لمهام الرياضة في MediaEval 2022 باستخدام شبكات العصب ثلاثية الأبعاد (3D CNNs) مع آليات الانتباه
الملخص

يقدم هذا البحث الطريقة الأساسية المقترحة لجزء مهام الفيديو الرياضي من معيار MediaEval 2022. تشمل هذه المهمة فرعين: تصنيف الضربات من مقاطع الفيديو المقطوعة، وكشف الضربات من مقاطع الفيديو غير المقطوعة. تتناول هذه الطريقة الأساسية كلاً من هذين الفرعين. نقترح نوعين من هندسات الشبكات العصبية ثلاثية الأبعاد (3D-CNN) لحل الفرعين. تستخدم كلتا شبكتي 3D-CNN التفافات زمانية-مكانية وآليات الانتباه (attention mechanisms). تم تعديل الهندسات والعملية التدريبية لتتناسب مع الفرع المعالج. يتم مشاركة هذه الطريقة الأساسية عبر الإنترنت بشكل عام لمساعدة المشاركين في بحثهم وتخفيف بعض جوانب المهمة مثل معالجة الفيديو، طريقة التدريب، التقييم والتقديم الروتيني. تصل دقة الطريقة الأساسية إلى 86.4٪ باستخدام نموذجنا v2 للفرع التصنيفي. بالنسبة لفرع الكشف، تصل الطريقة الأساسية إلى mAP قدره 0.131 و IoU قدره 0.515 باستخدام نموذجنا v1.

طريقة الأساس لمهام الرياضة في MediaEval 2022 باستخدام شبكات العصب ثلاثية الأبعاد (3D CNNs) مع آليات الانتباه | أحدث الأوراق البحثية | HyperAI