تحسين تقييم جودة الأداء باستخدام التجميع الموزون

تقييم جودة العمل (AQA) يهدف إلى تحكيم الأنشطة البشرية تلقائيًا بناءً على فيديو للنشاط المعين وتعيين درجة أداء له. معظم الأعمال في الأدبيات الحالية حول تقييم جودة العمل تقوم بتقسيم مقاطع الفيديو الملونة (RGB) إلى مقاطع قصيرة، ثم تحويل هذه المقاطع إلى تمثيلات مستويات أعلى باستخدام شبكات الإدراك ثلاثية الأبعاد (Convolutional 3D - C3D)، ومن ثم دمجها من خلال التوسيط. يتم استخدام هذه التمثيلات المستويات العليا لتنفيذ تقييم جودة العمل. نجد أن تقنية دمج الخصائص على مستوى المقاطع الحالية عبر التوسيط غير كافية لالتقاط الأهمية النسبية للخصائص على مستوى المقاطع. في هذا البحث، نقترح تقنية متوسطة موزونة تعتمد على التعلم الآلي. باستخدام هذه التقنية، يمكن الحصول على أداء أفضل دون التضحية بمقدار كبير من الموارد الحسابية. نطلق على هذه التقنية اسم محدد الوزن (Weight-Decider - WD). كما نجري تجارب باستخدام شبكات ResNets لتعلم تمثيلات أفضل لتقييم جودة العمل. نقيم آثار عمق الشبكة العصبية الإدراكية وحجم المقطع الدخلي على جودة توقعات درجات الأداء. حققنا رتبة ارتباط سبيرمان جديدة ومتفوقة بلغت 0.9315 (زيادة بنسبة 0.45%) على مجموعة بيانات MTL-AQA باستخدام شبكة ResNet ذات 34 طبقة ((2+1)D مع القدرة على معالجة مقاطع فيديو تتكون من 32 إطارًا، مع دمج محدد الوزن (WD).