Command Palette
Search for a command to run...
TSM : Module de Décalage Temporel pour une Compréhension Vidéo Efficace
TSM : Module de Décalage Temporel pour une Compréhension Vidéo Efficace
Ji Lin Chuang Gan Song Han
Résumé
La croissance explosive du streaming vidéo soulève des défis en matière de compréhension vidéo à haute précision et faible coût de calcul. Les CNN 2D conventionnels sont peu coûteux en termes de calcul mais ne peuvent pas capturer les relations temporelles ; les méthodes basées sur les CNN 3D peuvent atteindre de bonnes performances mais sont très gourmandes en ressources, ce qui rend leur déploiement coûteux. Dans cet article, nous proposons un module générique et efficace appelé Temporal Shift Module (TSM) qui offre à la fois une haute efficacité et de hautes performances. Plus précisément, il peut atteindre les performances d'un CNN 3D tout en maintenant la complexité d'un CNN 2D. Le TSM décale une partie des canaux le long de la dimension temporelle, facilitant ainsi l'échange d'informations entre les images voisines. Il peut être intégré dans des CNN 2D pour réaliser un modélisation temporelle sans coût ni paramètres supplémentaires. Nous avons également étendu le TSM à un environnement en ligne, permettant une reconnaissance vidéo en temps réel avec faible latence et une détection d'objets vidéo. Le TSM est précis et efficace : au moment de sa publication, il occupe la première place du classement Something-Something ; sur Jetson Nano et Galaxy Note8, il atteint une latence faible de 13 ms et 35 ms pour la reconnaissance vidéo en ligne. Le code est disponible à l'adresse suivante : https://github.com/mit-han-lab/temporal-shift-module.