HyperAIHyperAI
il y a 2 mois

Méthode de référence pour la tâche sport de MediaEval 2022 utilisant des CNNs 3D avec mécanismes d'attention

Pierre-Etienne Martin
Méthode de référence pour la tâche sport de MediaEval 2022 utilisant des CNNs 3D avec mécanismes d'attention
Résumé

Ce document présente la méthode de référence proposée pour la tâche Sports Video du benchmark MediaEval 2022. Cette tâche comporte deux sous-tâches : la classification des coups à partir de vidéos tronquées et la détection des coups à partir de vidéos non tronquées. La méthode de référence aborde les deux sous-tâches. Nous proposons deux types d'architectures de 3D-CNN pour résoudre ces deux sous-tâches. Les deux 3D-CNN utilisent des convolutions spatio-temporelles et des mécanismes d'attention. Les architectures et le processus d'entraînement sont adaptés pour résoudre la sous-tâche concernée. Cette méthode de référence est partagée en ligne de manière publique afin d'aider les participants dans leurs investigations et d'alléger certains aspects de la tâche, tels que le traitement vidéo, la méthode d'entraînement, l'évaluation et la procédure de soumission. La méthode de référence atteint une précision de 86,4 % avec notre modèle v2 pour la sous-tâche de classification. Pour la sous-tâche de détection, la méthode de référence atteint un mAP (mean Average Precision) de 0,131 et un IoU (Intersection over Union) de 0,515 avec notre modèle v1.

Méthode de référence pour la tâche sport de MediaEval 2022 utilisant des CNNs 3D avec mécanismes d'attention | Articles de recherche récents | HyperAI