HyperAIHyperAI

Command Palette

Search for a command to run...

TSM: Temporal Shift Module für effizientes Video-Verständnis

Ji Lin Chuang Gan Song Han

Zusammenfassung

Das explosionsartige Wachstum des Video-Streamings wirft Herausforderungen auf, Videos mit hoher Genauigkeit und geringen Rechenkosten zu verstehen. Konventionelle 2D-CNNs sind rechnerisch kostengünstig, können jedoch keine zeitlichen Beziehungen erfassen; Methoden basierend auf 3D-CNNs können gute Leistungen erzielen, sind aber rechnerisch anspruchsvoll, was die Bereitstellung teuer macht. In dieser Arbeit schlagen wir ein generisches und effektives Temporal Shift Modul (TSM) vor, das sowohl hohe Effizienz als auch hohe Leistung bietet. Insbesondere kann es die Leistung von 3D-CNNs erreichen, während es die Komplexität von 2D-CNNs beibehält. Das TSM verschiebt einen Teil der Kanäle entlang der zeitlichen Dimension, wodurch Informationen zwischen benachbarten Frames ausgetauscht werden können. Es kann in 2D-CNNs eingefügt werden, um zeitliche Modellierung ohne zusätzliche Rechenkosten und ohne zusätzliche Parameter zu erreichen. Wir haben das TSM auch für den Online-Betrieb erweitert, was Echtzeit-Videounterkennung und -Objekterkennung mit geringer Latenz ermöglicht. Das TSM ist genau und effizient: Bei Veröffentlichung rangierte es an erster Stelle auf dem Something-Something-Leaderboard; auf Jetson Nano und Galaxy Note8 erreicht es eine Latenz von 13 ms und 35 ms für die Online-Videounterkennung. Der Quellcode ist unter folgendem Link verfügbar:https://github.com/mit-han-lab/temporal-shift-module.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp