HyperAIHyperAI
il y a 17 jours

Learn2Augment : Apprendre à composer des vidéos pour une augmentation de données en reconnaissance d'actions

Shreyank N Gowda, Marcus Rohrbach, Frank Keller, Laura Sevilla-Lara
Learn2Augment : Apprendre à composer des vidéos pour une augmentation de données en reconnaissance d'actions
Résumé

Nous abordons le problème de la transformation des données pour la reconnaissance d’actions dans les vidéos. Les stratégies classiques d’augmentation dans le domaine vidéo sont conçues manuellement et échantillonnent l’espace des points de données augmentés soit de manière aléatoire, sans savoir a priori quels échantillons seront meilleurs, soit selon des heuristiques. Nous proposons d’apprendre ce qui caractérise une bonne vidéo pour la reconnaissance d’actions, et de ne sélectionner que des échantillons de haute qualité pour l’augmentation. Plus précisément, nous choisissons le composite de vidéos en avant-plan et arrière-plan comme procédé d’augmentation, ce qui permet de générer de nouveaux échantillons diversifiés et réalistes. Nous apprenons à identifier les paires de vidéos à augmenter sans avoir à les composer réellement. Cette approche réduit considérablement l’espace des augmentations possibles, offrant deux avantages : elle diminue le coût computationnel et améliore la précision du classificateur final, puisque les paires augmentées sont de meilleure qualité que la moyenne. Nous présentons des résultats expérimentaux sur l’ensemble des cadres d’apprentissage : faible apprentissage (few-shot), semi-supervisé et supervisé. Nous observons des améliorations constantes par rapport aux travaux antérieurs et aux méthodes de référence sur les jeux de données Kinetics, UCF101 et HMDB51, atteignant un nouveau record d’état de l’art dans les configurations à données limitées. Nous constatons notamment des gains allant jusqu’à 8,6 % dans le cadre semi-supervisé.