HyperAIHyperAI

Command Palette

Search for a command to run...

TSM : Module de Décalage Temporel pour une Compréhension Vidéo Efficace

Ji Lin Chuang Gan Song Han

Résumé

La croissance explosive du streaming vidéo soulève des défis en matière de compréhension vidéo à haute précision et faible coût de calcul. Les CNN 2D conventionnels sont peu coûteux en termes de calcul mais ne peuvent pas capturer les relations temporelles ; les méthodes basées sur les CNN 3D peuvent atteindre de bonnes performances mais sont très gourmandes en ressources, ce qui rend leur déploiement coûteux. Dans cet article, nous proposons un module générique et efficace appelé Temporal Shift Module (TSM) qui offre à la fois une haute efficacité et de hautes performances. Plus précisément, il peut atteindre les performances d'un CNN 3D tout en maintenant la complexité d'un CNN 2D. Le TSM décale une partie des canaux le long de la dimension temporelle, facilitant ainsi l'échange d'informations entre les images voisines. Il peut être intégré dans des CNN 2D pour réaliser un modélisation temporelle sans coût ni paramètres supplémentaires. Nous avons également étendu le TSM à un environnement en ligne, permettant une reconnaissance vidéo en temps réel avec faible latence et une détection d'objets vidéo. Le TSM est précis et efficace : au moment de sa publication, il occupe la première place du classement Something-Something ; sur Jetson Nano et Galaxy Note8, il atteint une latence faible de 13 ms et 35 ms pour la reconnaissance vidéo en ligne. Le code est disponible à l'adresse suivante : https://github.com/mit-han-lab/temporal-shift-module.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
TSM : Module de Décalage Temporel pour une Compréhension Vidéo Efficace | Articles | HyperAI