HyperAIHyperAI
vor 2 Monaten

TSM: Temporal Shift Module für effizientes Video-Verständnis

Lin, Ji ; Gan, Chuang ; Han, Song
TSM: Temporal Shift Module für effizientes Video-Verständnis
Abstract

Das explosionsartige Wachstum des Video-Streamings wirft Herausforderungen auf, Videos mit hoher Genauigkeit und geringen Rechenkosten zu verstehen. Konventionelle 2D-CNNs sind rechnerisch kostengünstig, können jedoch keine zeitlichen Beziehungen erfassen; Methoden basierend auf 3D-CNNs können gute Leistungen erzielen, sind aber rechnerisch anspruchsvoll, was die Bereitstellung teuer macht. In dieser Arbeit schlagen wir ein generisches und effektives Temporal Shift Modul (TSM) vor, das sowohl hohe Effizienz als auch hohe Leistung bietet. Insbesondere kann es die Leistung von 3D-CNNs erreichen, während es die Komplexität von 2D-CNNs beibehält. Das TSM verschiebt einen Teil der Kanäle entlang der zeitlichen Dimension, wodurch Informationen zwischen benachbarten Frames ausgetauscht werden können. Es kann in 2D-CNNs eingefügt werden, um zeitliche Modellierung ohne zusätzliche Rechenkosten und ohne zusätzliche Parameter zu erreichen. Wir haben das TSM auch für den Online-Betrieb erweitert, was Echtzeit-Videounterkennung und -Objekterkennung mit geringer Latenz ermöglicht. Das TSM ist genau und effizient: Bei Veröffentlichung rangierte es an erster Stelle auf dem Something-Something-Leaderboard; auf Jetson Nano und Galaxy Note8 erreicht es eine Latenz von 13 ms und 35 ms für die Online-Videounterkennung. Der Quellcode ist unter folgendem Link verfügbar:https://github.com/mit-han-lab/temporal-shift-module.