HyperAIHyperAI
il y a 9 jours

Eidetic 3D LSTM : un modèle pour la prédiction vidéo et au-delà

{Li Fei-Fei, Li-Jia Li, Ming-Hsuan Yang, Mingsheng Long, Yunbo Wang, Lu Jiang}
Eidetic 3D LSTM : un modèle pour la prédiction vidéo et au-delà
Résumé

L'apprentissage prédictif spatio-temporel, bien qu'il soit depuis longtemps considéré comme une méthode prometteuse d'apprentissage non supervisé de représentations, montre rarement son efficacité au-delà de la prédiction vidéo future. La raison en est qu'il est difficile d'apprendre des représentations performantes à la fois pour les dépendances à court terme entre cadres et pour les relations de haut niveau à long terme. Nous proposons un nouveau modèle, l'Eidetic 3D LSTM (E3D-LSTM), qui intègre des convolutions 3D dans les réseaux récurrents (RNN). La convolution 3D encapsulée rend les perceptrons locaux des RNN sensibles au mouvement et permet à la cellule de mémoire de stocker des caractéristiques à court terme de manière plus efficace. Pour modéliser les relations à long terme, nous faisons interagir l'état actuel de la mémoire avec ses enregistrements historiques via un module d'attention auto-contrôlée par porte. Nous désignons ce mécanisme de transition de mémoire comme « eidétique », car il permet de rappeler efficacement les mémoires stockées à travers plusieurs instants temporels, même après de longues périodes de perturbation. Nous évaluons d'abord le réseau E3D-LSTM sur des jeux de données largement utilisés pour la prédiction vidéo future, où il atteint des performances de pointe. Ensuite, nous démontrons que le réseau E3D-LSTM se distingue également dans la reconnaissance précoce d'activités, permettant d'inférer ce qui se produit ou ce qui va se produire après l'observation de seulement quelques cadres vidéo. Cette tâche s'aligne étroitement avec la prédiction vidéo, car les intentions et les tendances d'action sont essentielles pour atteindre des performances de pointe.