Découplage de la dynamique physique des facteurs inconnus pour la prédiction non supervisée de vidéos

Exploiter les connaissances physiques décrites par des équations aux dérivées partielles (EDP) constitue une approche prometteuse pour améliorer les méthodes non supervisées de prédiction vidéo. Étant donné que la physique est trop restrictive pour décrire l’intégralité du contenu visuel des vidéos génériques, nous introduisons PhyDNet, une architecture profonde à deux branches, qui désentrelace explicitement la dynamique décrite par les EDP de l’information complémentaire inconnue. Une deuxième contribution réside dans la proposition d’une nouvelle cellule récurrente physique (PhyCell), inspirée des techniques d’assimilation de données, permettant de réaliser des prédictions contraintes par des EDP dans l’espace latent. Des expériences étendues menées sur quatre jeux de données variés démontrent la capacité de PhyDNet à surpasser les méthodes de pointe. Des études d’ablation mettent également en évidence l’apport significatif des deux composantes : la désentrelacement et la prédiction contrainte par les EDP. Enfin, nous montrons que PhyDNet présente des caractéristiques intéressantes pour traiter les données manquantes et effectuer des prévisions à long terme.