Représentations spatiotemporelles par HalluciNet à l'aide d'un CNN 2D

Les représentations spatio-temporelles apprises à l'aide de réseaux neuronaux convolutifs 3D (CNN) sont actuellement utilisées dans les approches de pointe pour les tâches liées aux actions. Cependant, les CNN 3D sont connus pour être intensifs en mémoire et en ressources de calcul par rapport aux architectures plus simples de CNN 2D. Nous proposons d'imaginer des représentations spatio-temporelles à partir d'un modèle enseignant CNN 3D avec un modèle étudiant CNN 2D. En exigeant que le CNN 2D prédise le futur et intuise l'activité à venir, il est encouragé à acquérir une compréhension plus profonde des actions et de leur évolution. La tâche d'imagination est traitée comme une tâche auxiliaire, qui peut être utilisée avec toute autre tâche liée aux actions dans un cadre d'apprentissage multitâche. Une évaluation expérimentale approfondie montre que la tâche d'imagination aide effectivement à améliorer les performances sur les tâches de reconnaissance d'actions, d'évaluation de la qualité des actions et de reconnaissance de scènes dynamiques. D'un point de vue pratique, la capacité d'imaginer des représentations spatio-temporelles sans utiliser un véritable CNN 3D permet le déploiement dans des scénarios contraints en ressources, tels que ceux dotés d'une puissance de calcul limitée et/ou d'une bande passante réduite. Le code source est disponible ici : https://github.com/ParitoshParmar/HalluciNet.