Command Palette
Search for a command to run...
Optimisation du codeur vidéo à faible fidélité pour la localisation temporelle des actions
Optimisation du codeur vidéo à faible fidélité pour la localisation temporelle des actions
Brais Martinez Bernard Ghanem Xiatian Zhu Juan Manuel Perez Rua Mengmeng Xu
Résumé
La plupart des méthodes existantes de localisation d’actions temporelles (TAL) reposent sur une pipeline d’apprentissage par transfert : un encodeur vidéo est d’abord optimisé sur un grand jeu de données de classification d’actions (domaine source), puis l’encodeur est gelé et une tête de TAL est entraînée sur un jeu de données de localisation d’actions (domaine cible). Ce processus engendre un problème de discordance de tâche pour l’encodeur vidéo — entraîné pour la classification d’actions, mais utilisé pour la TAL. Intuitivement, une optimisation conjointe de l’encodeur vidéo et de la tête de TAL constituerait une solution de base robuste à ce déséquilibre. Toutefois, cette approche n’est pas réalisable dans le cadre de la TAL en raison des contraintes mémoire GPU, du fait du coût computationnel prohibitif lié au traitement de vidéos longues non tronquées. Dans cet article, nous résolvons ce défi en introduisant une nouvelle méthode d’optimisation d’encodeur vidéo à faible fidélité (LoFi). Au lieu d’utiliser systématiquement les configurations d’entraînement complètes en TAL, nous proposons de réduire la composition des mini-batches en termes de résolution temporelle, spatiale ou spatio-temporelle, afin de rendre possible l’optimisation conjointe de l’encodeur vidéo et de la tête de TAL dans des conditions mémoire compatibles avec un budget matériel moyen. De façon cruciale, cette approche permet aux gradients de remonter à travers l’encodeur vidéo sous la supervision d’une perte de TAL, résolvant ainsi favorablement le problème de discordance de tâche et fournissant des représentations de caractéristiques plus efficaces. Des expériences étendues montrent que la méthode d’optimisation LoFi proposée améliore significativement les performances des méthodes TAL existantes. De manière encourageante, même avec un encodeur vidéo léger basé sur ResNet18 dans un seul flux RGB, notre méthode dépasse les alternatives à deux flux (RGB + flux optique) basées sur ResNet50, souvent avec un écart notable.