TSP : Préformation temporellement sensible des encodeurs vidéo pour les tâches de localisation

En raison de la grande empreinte mémoire des vidéos non coupées, les méthodes actuelles d'localisation vidéo opèrent sur des caractéristiques de clips précalculés. Ces caractéristiques sont extraites à partir d'encodeurs vidéo généralement formés pour des tâches de classification d'actions tronquées, ce qui rend ces caractéristiques pas nécessairement adaptées à la localisation temporelle. Dans cette étude, nous proposons un nouveau paradigme de préformation supervisée pour les caractéristiques de clips qui non seulement forme à classifier les activités, mais prend également en compte les clips de fond et les informations globales de la vidéo pour améliorer la sensibilité temporelle. Des expériences approfondies montrent que l'utilisation de caractéristiques formées avec notre stratégie de préformation novatrice améliore considérablement les performances des méthodes récentes d'avant-garde sur trois tâches : Localisation Temporelle d'Actions, Génération de Proposals d'Actions et Légendage Vidéo Densif. Nous montrons également que notre approche de préformation est efficace sur trois architectures d'encodeurs et deux ensembles de données de préformation. Nous croyons que l'encodage des caractéristiques vidéo est un élément essentiel des algorithmes de localisation, et que l'extraction de caractéristiques temporellement sensibles devrait être une priorité absolue pour construire des modèles plus précis. Le code et les modèles préformés sont disponibles sur notre site web du projet.