Amélioration de l'évaluation de la qualité des actions grâce à l'agrégation pondérée

L'évaluation de la qualité des actions (AQA) vise à juger automatiquement une action humaine en se basant sur une vidéo de cette action et à lui attribuer un score de performance. La majorité des travaux existants dans la littérature sur l'AQA divisent les vidéos RGB en courts extraits, transforment ces extraits en représentations de niveau supérieur à l'aide de réseaux Convolutionnels 3D (C3D), puis les agrègent par moyennage. Ces représentations de niveau supérieur sont utilisées pour effectuer l'AQA. Nous constatons que la technique actuelle d'agrégation des caractéristiques au niveau des extraits par moyennage est insuffisante pour capturer l'importance relative des caractéristiques au niveau des extraits. Dans ce travail, nous proposons une technique d'agrégation pondérée basée sur l'apprentissage. En utilisant cette technique, il est possible d'obtenir de meilleures performances sans sacrifier trop de ressources computationnelles. Nous appelons cette technique Weight-Decider (WD). Nous avons également expérimenté avec les ResNets pour apprendre de meilleures représentations pour l'évaluation de la qualité des actions. Nous évaluons les effets de la profondeur et de la taille des extraits d'entrée du réseau neuronal convolutif sur la qualité des prédictions du score d'action. Nous atteignons une nouvelle corrélation de rang de Spearman record de 0,9315 (une augmentation de 0,45%) sur le jeu de données MTL-AQA en utilisant un ResNet (2+1)D à 34 couches capable de traiter des extraits de 32 images, avec l'agrégation WD.