Représentations intermédiaires adaptatives pour la compréhension vidéo

Une stratégie courante pour la compréhension vidéo consiste à intégrer des informations spatiales et motionnelles en fusionnant des caractéristiques extraites à partir de trames RGB et du flux optique. Dans ce travail, nous introduisons une nouvelle approche qui exploite la segmentation sémantique comme représentation intermédiaire pour la compréhension vidéo, et l’utilise de manière à ne nécessiter aucune étiquetage supplémentaire. Deuxièmement, nous proposons un cadre général qui apprend conjointement les représentations intermédiaires (flux optique et segmentation sémantique) et la tâche finale de compréhension vidéo, tout en permettant une adaptation de ces représentations à l’objectif final. Malgré l’utilisation de représentations intermédiaires au sein du réseau, aucune donnée supplémentaire au-delà des séquences RGB n’est requise lors de l’inférence, ce qui permet une reconnaissance efficace à l’aide d’un seul réseau. Enfin, nous présentons une méthode pour déterminer la configuration d’apprentissage optimale en cherchant les poids de perte les plus appropriés via une recherche évolutionnaire. Nous obtenons ainsi des représentations visuelles plus puissantes pour les vidéos, entraînant des gains de performance par rapport aux états de l’art.