FineParser: محرك تحليل دقيق للعمليات المكانية-الزمنية لتقدير جودة الأنشطة البشرية

طرق تقييم جودة الحركة (AQA) الحالية تركز بشكل أساسي على تعلم التمثيلات العميقة على مستوى الفيديو لتقييم مجموعة متنوعة من الحركات. بسبب عدم وجود فهم دقيق للحركات في الفيديوهات، تعاني هذه الطرق بشدة من انخفاض المصداقية والقابلية للتفسير، مما يجعلها غير كافية للتطبيقات الصارمة مثل أحداث الغوص الأولمبية. نعتقد أن الفهم الدقيق للحركات يتطلب من النموذج أن يدرك ويحلل الحركات في كل من الزمن والمكان، وهو أيضًا المفتاح للمصداقية والقابلية للتفسير لتقنية تقييم جودة الحركة (AQA). بناءً على هذا البصيرة، نقترح طريقة جديدة لتحليل الحركات الزمانية-المكانية بدقة عالية تُسمى \textbf{FineParser}. يتميز FineParser بقدرته على تعلم تمثيلات الحركة الأمامية المتمحورة حول الإنسان عن طريق التركيز على المناطق المستهدفة للحركة داخل كل إطار واستغلال تناسقها الدقيق في الزمن والمكان لتقليل تأثير الخلفيات غير صالحة أثناء التقييم. بالإضافة إلى ذلك، قمنا ببناء شروح دقيقة لأقنعة الحركة الأمامية المتمحورة حول الإنسان لمجموعة بيانات الغوص الدقيقة (FineDiving)، والتي تُعرف باسم \textbf{FineDiving-HM}. مع الشروح الدقيقة لإجراءات الحركة المستهدفة المتنوعة، يمكن لـ FineDiving-HM تعزيز تطوير أنظمة تقييم جودة الحركة (AQA) في العالم الحقيقي. من خلال التجارب الواسعة، نثبت فعالية FineParser، حيث يتفوق على أفضل الطرق المتاحة حاليًا ويدعم المزيد من مهام الفهم الدقيق للحركة. البيانات والكود متاحة على الرابط \url{https://github.com/PKU-ICST-MIPL/FineParser_CVPR2024}.