VarNet : Exploration des variations pour la prédiction vidéo non supervisée
La prédiction vidéo non supervisée constitue une tâche particulièrement difficile en raison de la complexité et de la diversité des scènes naturelles. Les approches précédentes qui prédise directement les pixels ou les flux optiques souffrent soit d’un flou, soit de l’imposition d’hypothèses supplémentaires. Nous soulignons que le cœur de la prédiction de trames vidéo réside dans la capture précise des variations entre trames, qui englobent à la fois le mouvement des objets et l’évolution du contexte environnant. À cet effet, nous proposons un cadre non supervisé de prédiction vidéo – le Réseau de Variations (VarNet) – conçu pour prédire directement les variations entre trames consécutives, lesquelles sont ensuite fusionnées avec la trame courante afin de générer la trame future. En outre, nous introduisons un mécanisme d’ajustement adaptatif des poids dans la fonction de perte, accordant à chaque pixel un poids équitable en fonction de l’amplitude de sa variation. Des expérimentations étendues sur deux jeux de données avancés – KTH et KITTI – et pour des prédictions à court et à long terme ont été menées, en utilisant deux métriques d’évaluation : PSNR et SSIM. Sur le jeu de données KTH, VarNet dépasse les méthodes de l’état de l’art jusqu’à 11,9 % en PSNR et 9,5 % en SSIM. Pour le jeu de données KITTI, les améliorations atteignent respectivement 55,1 % en PSNR et 15,9 % en SSIM. En outre, nous avons vérifié que la capacité de généralisation de notre modèle excelle sur les autres méthodes de pointe, en testant sur le jeu de données CalTech Pedestrian non vu après entraînement sur KITTI. Le code source et des vidéos sont disponibles à l’adresse suivante : https://github.com/jinbeibei/VarNet.