YouTube-8M : Une grande base de référence pour la classification vidéo à grande échelle

De nombreux progrès récents en Vision par Ordinateur sont attribués à de grands ensembles de données. Les logiciels open source pour l'Apprentissage Automatique et les matériels bon marché ont réduit les obstacles à l'exploration de nouvelles approches à grande échelle. Il est possible d'entraîner des modèles sur plusieurs millions d'exemples en quelques jours. Bien que des ensembles de données à grande échelle existent pour la compréhension des images, tels qu'ImageNet, il n'existe pas de jeux de données comparables pour la classification vidéo.Dans cet article, nous présentons YouTube-8M, le plus grand ensemble de données de classification vidéo multi-étiquettes, composé d'environ 8 millions de vidéos (500 000 heures de vidéo), annotées avec un vocabulaire de 4800 entités visuelles. Pour obtenir les vidéos et leurs étiquettes, nous avons utilisé un système d'annotation vidéo YouTube, qui étiquette les vidéos avec leurs principaux sujets. Bien que ces étiquettes soient générées par machine, elles sont précises et dérivées d'une variété de signaux humains, notamment des métadonnées et des signaux de clics sur les requêtes. Nous avons filtré les étiquettes des vidéos (entités du Knowledge Graph) en utilisant des stratégies d'automatisation et de curation manuelle, y compris en demandant aux évaluateurs humains si les étiquettes sont visuellement reconnaissables. Ensuite, nous avons décrypté chaque vidéo à une fréquence d'un cadre par seconde et avons utilisé un réseau neuronal convolutif profond pré-entraîné sur ImageNet pour extraire la représentation cachée immédiatement avant la couche de classification. Enfin, nous avons compressé les caractéristiques des cadres et rendu disponibles à la fois les caractéristiques et les étiquettes au niveau vidéo pour téléchargement.Nous avons entraîné divers modèles de classification (modestes) sur l'ensemble de données, évalués en utilisant des métriques populaires, et nous rapportons ces résultats comme lignes directrices. Malgré la taille importante du jeu de données, certains de nos modèles atteignent la convergence en moins d'un jour sur une seule machine en utilisant TensorFlow. Nous prévoyons de publier le code pour entraîner un modèle TensorFlow ainsi que pour calculer les métriques.