Résumé vidéo conjoint et localisation de moment par transfert d’échantillonnage entre tâches

La synthèse vidéo a récemment suscité un intérêt croissant au sein des communautés de vision par ordinateur. Toutefois, la rareté des données annotées constitue un obstacle majeur à l’avancement de cette tâche. Pour y remédier, cette étude explore une nouvelle approche pour la synthèse vidéo en transférant des échantillons d’une tâche corrélée (à savoir la localisation de moments vidéo), qui dispose de vastes ensembles de données d’entraînement. Notre principale observation repose sur le fait que les moments vidéo annotés indiquent également les éléments sémantiques essentiels d’une vidéo, ce qui est fondamentalement similaire à la synthèse vidéo. En termes approximatifs, une synthèse vidéo peut être considérée comme une version éparse et sans redondance des moments vidéo. Inspirés par cette observation, nous proposons un réseau collaboratif basé sur la propagation d’importance (iPTNet), composé de deux modules distincts, chacun dédié respectivement à la synthèse vidéo et à la localisation de moments. Chaque module estime une carte d’importance par trame, afin d’identifier les trames clés ou les moments significatifs. Pour permettre le transfert d’échantillons entre les deux tâches, nous avons conçu un module de propagation d’importance, qui réalise la conversion entre cartes d’importance orientées vers la synthèse et cartes orientées vers la localisation. Cette approche permet ainsi d’optimiser l’une des tâches à l’aide des données issues de l’autre. Par ailleurs, afin d’éviter l’amplification d’erreurs due à l’entraînement conjoint par lots, nous avons développé un schéma de « enseignement collaboratif », qui adopte une stratégie d’enseignement moyen inter-tâches pour assurer l’optimisation conjointe des deux tâches et fournir des signaux d’enseignement robustes au niveau des trames. Des expérimentations étendues sur des benchmarks de synthèse vidéo démontrent que iPTNet surpasse significativement les méthodes les plus avancées précédentes, offrant ainsi une solution efficace pour surmonter le problème de la rareté des données dans la synthèse vidéo.