Un réseau de flux de voxels multi-échelle dynamique pour la prédiction vidéo

Les performances de la prédiction vidéo ont été considérablement améliorées grâce aux réseaux neuronaux profonds avancés. Toutefois, la plupart des méthodes actuelles souffrent de tailles de modèle importantes et nécessitent des entrées supplémentaires, telles que des cartes sémantiques ou des cartes de profondeur, pour atteindre de bons résultats. Dans une optique d’efficacité, nous proposons dans cet article un réseau dynamique à flux de voxels multi-échelle (DMVFN), capable d’obtenir de meilleures performances en prédiction vidéo à moindre coût computationnel, en se basant uniquement sur des images RGB, par rapport aux méthodes précédentes. Le cœur de notre DMVFN est un module de routage différentiable permettant de percevoir efficacement les échelles de mouvement présentes dans les images vidéo. Une fois entraîné, le DMVFN sélectionne dynamiquement des sous-réseaux adaptatifs en fonction des entrées lors de l’étape d’inférence. Des expériences menées sur plusieurs benchmarks montrent que notre DMVFN est d’un ordre de grandeur plus rapide que Deep Voxel Flow, et dépasse l’état de l’art basé sur l’itération OPT en termes de qualité des images générées. Le code source et une démonstration sont disponibles à l’adresse suivante : https://huxiaotaostasy.github.io/DMVFN/.