FitVid : Surapprentissage dans la prédiction pixel-par-pixel des vidéos

Un agent capable de prédire ce qui va se produire ensuite peut accomplir une variété de tâches par planification, sans entraînement supplémentaire. De plus, un tel agent peut représenter internement la dynamique complexe du monde réel, ce qui lui permet d’acquérir une représentation utile pour diverses tâches de perception visuelle. Cela rend la prédiction des cadres futurs d’une vidéo, conditionnée par le passé observé et potentiellement par des actions futures, une tâche particulièrement intéressante, bien qu’exceptionnellement difficile malgré les avancées récentes. Les modèles existants de prédiction vidéo ont montré des résultats prometteurs sur des benchmarks simples et étroits, mais ils produisent des prédictions de faible qualité sur des jeux de données réalistes présentant des dynamiques plus complexes ou des domaines plus larges. Des preuves croissantes indiquent que le sous-apprentissage sur les données d’entraînement est l’une des causes principales de ces prédictions de faible qualité. Dans cet article, nous soutenons que l’utilisation inefficace des paramètres dans les modèles vidéo actuels est la principale cause du sous-apprentissage. Par conséquent, nous introduisons une nouvelle architecture, nommée FitVid, capable de sur-apprentissage sévère sur les benchmarks courants tout en ayant un nombre de paramètres similaire à celui des modèles de pointe actuels. Nous analysons les conséquences du sur-apprentissage, illustrant comment il peut produire des résultats inattendus, tels que la génération de sorties de haute qualité par répétition des données d’entraînement, et comment il peut être atténué à l’aide de techniques existantes d’augmentation d’images. En résulte, FitVid surpasser les modèles de pointe actuels sur quatre benchmarks distincts de prédiction vidéo, selon quatre métriques différentes.