HyperAIHyperAI

Command Palette

Search for a command to run...

FASTER-Recurrent-Netzwerke für effiziente Video-Klassifizierung

Linchao Zhu; Laura Sevilla-Lara; Du Tran; Matt Feiszli; Yi Yang; Heng Wang

Zusammenfassung

Typische Video-Klassifikationsmethoden teilen häufig ein Video in kurze Abschnitte auf, führen für jeden Abschnitt unabhängig eine Inferenz durch und aggregieren dann die Abschnittsebene-Vorhersagen, um die Videoebene-Ergebnisse zu generieren. Dieses Vorgehen ignoriert jedoch die zeitliche Struktur der Videosequenz und erhöht den Rechenaufwand während der Inferenz. In dieser Arbeit schlagen wir einen neuen Ansatz vor, der FASTER genannt wird, also Feature Aggregation for Spatio-TEmporal Redundancy (FASTER). FASTER strebt an, die Redundanz zwischen benachbarten Abschnitten auszunutzen und den Rechenaufwand zu reduzieren, indem es lernt, Vorhersagen von Modellen unterschiedlicher Komplexität zu aggregieren. Das FASTER-Framework kann hochwertige Darstellungen von aufwändigen Modellen integrieren, um feine Bewegungsinformationen zu erfassen, sowie leichte Darstellungen von günstigen Modellen, um Szenenwechsel im Video abzudecken. Ein neues rekurrentes Netzwerk (nämlich FAST-GRU) wurde entwickelt, um die Mischung verschiedener Darstellungen zu aggregieren. Verglichen mit bestehenden Ansätzen kann FASTER den Rechenaufwand (FLOPs) um mehr als das Zehnfache reduzieren, während es den Stand der Technik in Bezug auf Genauigkeit bei populären Datensätzen wie Kinetics, UCF-101 und HMDB-51 beibehält.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp