Faire Moins et Atteindre Plus : Formation de CNNs pour la Reconnaissance d'Actions en Utilisant des Images d'Actions issues du Web

Récemment, des tentatives ont été faites pour collecter des millions de vidéos afin d'entraîner des modèles de CNN (Convolutional Neural Networks) pour la reconnaissance d'actions dans les vidéos. Cependant, l'élaboration de tels ensembles de données vidéo à grande échelle nécessite un travail humain considérable, et l'entraînement de CNN sur des millions de vidéos exige d'énormes ressources informatiques. En revanche, la collecte d'images d'actions sur le Web est beaucoup plus simple et l'entraînement sur des images requiert beaucoup moins de calcul. De plus, les images étiquetées provenant du Web tendent à contenir des postures d'action discriminantes, qui mettent en évidence les parties discriminantes du déroulement temporel d'une vidéo. Nous explorons la question de savoir si nous pouvons utiliser des images d'actions issues du Web pour entraîner des modèles de CNN plus performants pour la reconnaissance d'actions dans les vidéos. Nous avons collecté 23 800 images filtrées manuellement sur le Web représentant les 101 actions du jeu de données vidéo UCF101. Nous montrons que l'utilisation d'images d'actions provenant du Web en complément des vidéos lors de l'entraînement permet d'obtenir des améliorations significatives des performances des modèles de CNN. Nous examinons ensuite la scalabilité du processus en utilisant des images web rampées (non filtrées) pour UCF101 et ActivityNet. Nous remplaçons 16,2 millions de trames vidéo par 393 000 images non filtrées et obtenons une performance comparable.