FineParser : Un analyseur spatio-temporel à grain fin pour l'évaluation de la qualité des actions centrées sur l'humain

Les méthodes actuelles d'évaluation de la qualité des actions (AQA) apprennent principalement des représentations profondes au niveau vidéo pour noter diverses actions. En raison du manque de compréhension fine des actions dans les vidéos, elles souffrent gravement d'un faible degré de crédibilité et d'interprétabilité, ce qui les rend insuffisantes pour des applications exigeantes, telles que les plongeons olympiques. Nous soutenons qu'une compréhension fine des actions nécessite que le modèle perçoive et analyse ces actions à la fois dans le temps et l'espace, ce qui est également la clé de la crédibilité et de l'interprétabilité de la technique AQA. À partir de cette intuition, nous proposons un nouveau parseur d'actions spatio-temporel à grain fin nommé FineParser. Il apprend des représentations d'actions centrées sur l'humain en se concentrant sur les régions d'action cibles dans chaque image et en exploitant leurs alignements fins dans le temps et l'espace pour minimiser l'impact des arrière-plans non pertinents lors de l'évaluation. De plus, nous construisons des annotations à grain fin de masques d'actions centrées sur l'humain pour le jeu de données FineDiving, appelées FineDiving-HM. Avec des annotations raffinées sur diverses procédures d'actions cibles, FineDiving-HM peut favoriser le développement de systèmes AQA réels. Par le biais d'expériences approfondies, nous démontrons l'efficacité de FineParser, qui surpasses les méthodes les plus avancées tout en supportant davantage de tâches liées à la compréhension fine des actions. Les données et le code sont disponibles à l'adresse \url{https://github.com/PKU-ICST-MIPL/FineParser_CVPR2024}.