تقييم الألم في الفيديو باستخدام التعلم متعدد المهام الموسّع من قياسات متعددة الأبعاد

العمل السابق في كشف الألم التلقائي من خلال التعبيرات الوجهية ركز بشكل رئيسي على مقاييس الألم على مستوى الإطار (frame-level) المستندة إلى تنشيطات عضلات الوجه المحددة، مثل مؤشر شدة الألم بركاشين وسولومون (PSPI). ومع ذلك، فإن المعيار الذهبي الحالي لقياس الألم هو مستوى مقياس القياس البصري الذاتي (VAS) الذي يُقدَّم من قبل المريض، وهو مقياس على مستوى الفيديو. في هذا العمل، نقترح نموذجًا متعدد المهام متعدد الأبعاد للدماغ لتقدير VAS مباشرةً من الفيديو. يتكون نموذجنا من ثلاث مراحل: (1) نموذج شبكي عصبي VGGFace مُدرَّب لتقدير PSPI على مستوى الإطار، حيث يتم تطبيق التعلم متعدد المهام، أي التنبؤ بوحدات التعبير الوجهية الفردية مع PSPI معًا، لتحسين تعلم PSPI؛ (2) شبكة عصبية متصلة بالكامل لتقدير درجات الألم على مستوى التسلسل من تنبؤات PSPI على مستوى الإطار، حيث نستخدم مرة أخرى التعلم متعدد المهام لتعلم مقاييس الألم متعددة الأبعاد بدلًا من VAS وحده؛ و(3) تركيب خطي مثالي للتنبؤات متعددة الأبعاد للحصول على تقدير نهائي لـ VAS. أظهرت النتائج على مجموعة بيانات UNBC-McMaster 통ية الألم أن طريقة التعلم متعدد المهام والمتعددة الأبعاد التي اقترحناها تحقق أداءً متقدمًا جدًا، بخطأ متوسط مطلق (MAE) قدره 1.95 ومعامل ارتباط داخلي (ICC) قدره 0.43. وعلى الرغم من أن الأداء لا يزال أقل من تنبؤات المراقب البشري المدرب الذي قدمه البيانات، فإن متوسط تنبؤات نموذجنا مع تنبؤات البشر يحسن من MAE من 1.76 إلى 1.58. تم تدريب النموذج على مجموعة بيانات UNBC-McMaster، وتم تطبيقه مباشرةً دون تدريب إضافي أو تعديل دقيق على مجموعة منفصلة من مقاطع الفيديو الوجهية المسجلة أثناء فحوصات ما بعد استئصال الزائدة الدودية، وقد تفوق النموذج على الطرق السابقة بنسبة 6% في معامل المساحة تحت منحنى ROC (AUC).