Qu'avez-vous fait et à quel point l'avez-vous bien fait ? Une approche d'apprentissage multitâche pour l'évaluation de la qualité des actions

Peut-on améliorer les performances dans la tâche d'évaluation de la qualité des actions (AQA) en exploitant une description de l'action et de sa qualité ? Les approches actuelles en AQA et en évaluation des compétences proposent d'apprendre des caractéristiques qui ne servent qu'à une seule tâche : estimer le score final. Dans cet article, nous proposons d'apprendre des caractéristiques spatio-temporelles qui expliquent trois tâches connexes : la reconnaissance détaillée des actions, la génération de commentaires, et l'estimation du score AQA. Un nouveau jeu de données multitâche-AQA, le plus grand à ce jour, composé de 1412 échantillons de plongeon, a été collecté pour évaluer notre approche (https://github.com/ParitoshParmar/MTL-AQA). Nous montrons que notre approche MTL (Multitask Learning) surpasse l'approche STL (Single Task Learning) en utilisant deux types différents d'architectures : C3D-AVG et MSCADC. L'approche C3D-AVG-MTL atteint une nouvelle performance de pointe avec une corrélation de rang de 90,44 %. Des expériences détaillées ont été réalisées pour démontrer que le MTL offre une meilleure généralisation que le STL, et que les représentations issues des modèles de reconnaissance des actions ne sont pas suffisantes pour la tâche AQA et doivent être apprises spécifiquement.