Compréhension Holistique à Grande Échelle des Vidéos

La reconnaissance vidéo a connu des progrès considérables ces dernières années grâce à des benchmarks dotés d'annotations riches. Cependant, la recherche reste principalement limitée à la reconnaissance des actions humaines ou des sports, se concentrant sur une tâche de compréhension vidéo très spécifique et laissant ainsi un écart significatif dans la description du contenu global d'une vidéo. Nous comblons cet écart en présentant un grand ensemble de données « Holistic Video Understanding Dataset » (HVU). L'ensemble de données HVU est organisé hiérarchiquement dans une taxonomie sémantique qui se concentre sur la compréhension vidéo multi-étiquettes et multi-tâches comme un problème global englobant la reconnaissance de multiples aspects sémantiques dans une scène dynamique. HVU contient environ 572 000 vidéos au total, avec 9 millions d'annotations pour les ensembles d'entraînement, de validation et de test, couvrant plus de 3142 étiquettes. HVU englobe les aspects sémantiques définis sur les catégories de scènes, d'objets, d'actions, d'événements, d'attributs et de concepts, capturant naturellement les scénarios du monde réel.Nous démontrons la capacité de généralisation de l'ensemble de données HVU sur trois tâches difficiles : 1) La classification vidéo, 2) La légendage vidéo et 3) Les tâches de regroupement vidéo. En particulier pour la classification vidéo, nous introduisons une nouvelle architecture de réseau neuronal profond spatio-temporel appelée « Holistic Appearance and Temporal Network » (HATNet), qui repose sur la fusion des architectures 2D et 3D en une seule en combinant les représentations intermédiaires d'apparence et de pistes temporelles. HATNet se concentre sur le problème d'apprentissage multi-étiquettes et multi-tâches et est entraîné selon une approche bout-à-bout. À travers nos expériences, nous validons l'idée que l'apprentissage de représentations holistiques est complémentaire et peut jouer un rôle clé dans l'activation de nombreuses applications du monde réel.