Repenser la classification vidéo zéro-shot : Une formation end-to-end pour des applications réalistes

Entraîné sur de grandes bases de données, l’apprentissage profond (DL) permet de classifier avec précision des vidéos dans des centaines de catégories diverses. Toutefois, l’annotation des données vidéo est coûteuse. L’apprentissage zéro-shot (ZSL) propose une solution à ce problème. Le ZSL permet d’entraîner un modèle une seule fois, puis de le généraliser à de nouvelles tâches dont les classes ne sont pas présentes dans les données d’entraînement. Nous proposons le premier algorithme end-to-end pour le ZSL dans la classification vidéo. Notre procédure d’entraînement s’appuie sur des insights issus de la littérature récente en classification vidéo et utilise un réseau de neurones convolutif 3D entraînable pour apprendre les caractéristiques visuelles. Cela contraste avec les méthodes précédentes de ZSL vidéo, qui reposaient sur des extracteurs de caractéristiques préentraînés. Nous étendons également le paradigme actuel d’évaluation : les techniques antérieures visent à rendre la tâche de test inconnue au moment de l’entraînement, mais ne parviennent pas pleinement à cet objectif. Nous encourageons un décalage de domaine entre les données d’entraînement et de test, et interdisons d’adapter spécifiquement un modèle ZSL à un jeu de données de test particulier. Nous surpassons de loin l’état de l’art. Notre code, la procédure d’évaluation et les poids du modèle sont disponibles sur github.com/bbrattoli/ZeroShotVideoClassification.