Évaluation de la douleur à partir de vidéos par apprentissage multitâche étendu à partir de mesures multidimensionnelles

Les travaux antérieurs sur la détection automatique de la douleur à partir des expressions faciales se sont principalement concentrés sur des métriques de douleur au niveau des trames, fondées sur des activations spécifiques de muscles faciaux, telles que l’indice de douleur de Prkachin et Solomon (PSPI). Toutefois, la métrique de référence actuelle pour la douleur est le score auto-déclaré du patient selon l’échelle visuelle analogique (VAS), qui constitue une mesure au niveau de la séquence vidéo. Dans ce travail, nous proposons un modèle multitâche multidimensionnel de la douleur, conçu pour prédire directement le VAS à partir d’une vidéo. Notre modèle se compose de trois étapes : (1) un réseau neuronal VGGFace entraîné pour prédire le PSPI au niveau des trames, où une approche d’apprentissage multitâche est appliquée, à savoir la prédiction simultanée des unités d’action faciale individuelles et du PSPI, afin d’améliorer l’apprentissage du PSPI ; (2) un réseau neuronal entièrement connecté permettant d’estimer les scores de douleur au niveau de la séquence à partir des prédictions du PSPI au niveau des trames, où nous utilisons à nouveau l’apprentissage multitâche pour apprendre plusieurs échelles multidimensionnelles de la douleur, et non pas uniquement le VAS ; (3) une combinaison linéaire optimale des prédictions multidimensionnelles de la douleur afin d’obtenir une estimation finale du VAS. Sur le jeu de données UNBC-McMaster Shoulder Pain, nous démontrons que notre méthode multitâche multidimensionnelle de la douleur atteint des performances de pointe, avec une erreur absolue moyenne (MAE) de 1,95 et un coefficient de corrélation intraclasse (ICC) de 0,43. Bien que ces résultats ne soient pas encore aussi bons que ceux fournis par des observateurs humains entraînés sur le jeu de données, en moyennant nos prédictions avec celles des observateurs humains, nous améliorons leur MAE, qui passe de 1,76 à 1,58. Entraîné sur le jeu de données UNBC-McMaster et appliqué directement, sans entraînement supplémentaire ni ajustement fin sur un autre jeu de données indépendant de vidéos faciales enregistrées lors d’examens physiques post-appendicectomie, notre modèle dépasse également les travaux antérieurs de 6 % sur le critère de l’aire sous la courbe ROC (AUC).