HyperAIHyperAI
il y a 9 jours

Prédiction efficace et préservant l'information des trames futures et au-delà

{Yichao Lu, Wei Yu, Sanja Fidler, Steve Easterbrook}
Prédiction efficace et préservant l'information des trames futures et au-delà
Résumé

L’application de blocs préservant la résolution est une pratique courante visant à maximiser la préservation des informations dans la prédiction vidéo, mais sa consommation élevée de mémoire limite fortement ses scénarios d’application. Nous proposons CrevNet, un réseau conditionnellement réversible qui utilise une architecture réversible pour construire un autoencodeur bidirectionnel bijectif ainsi qu’un prédicteur récurrent complémentaire. Notre modèle bénéficie d’une propriété théoriquement garantie de perte d’information nulle lors de l’extraction des caractéristiques, d’une consommation de mémoire nettement réduite et d’une efficacité computationnelle élevée. La légèreté de notre modèle nous permet d’intégrer des convolutions 3D sans craindre de goulot d’étranglement mémoire, ce qui améliore significativement la capacité du modèle à capturer à la fois les dépendances temporelles à court et à long terme. L’approche proposée atteint des résultats de pointe sur les jeux de données Moving MNIST, Traffic4cast et KITTI. Nous démontrons également la transférabilité de notre méthode d’apprentissage auto-supervisé en exploitant les caractéristiques apprises pour la détection d’objets sur KITTI. Nos résultats compétitifs indiquent le potentiel de CrevNet comme stratégie de pré-entraînement génératif pour guider des tâches ultérieures.