FASTER-Recurrent-Netzwerke für effiziente Video-Klassifizierung

Typische Video-Klassifikationsmethoden teilen häufig ein Video in kurze Abschnitte auf, führen für jeden Abschnitt unabhängig eine Inferenz durch und aggregieren dann die Abschnittsebene-Vorhersagen, um die Videoebene-Ergebnisse zu generieren. Dieses Vorgehen ignoriert jedoch die zeitliche Struktur der Videosequenz und erhöht den Rechenaufwand während der Inferenz. In dieser Arbeit schlagen wir einen neuen Ansatz vor, der FASTER genannt wird, also Feature Aggregation for Spatio-TEmporal Redundancy (FASTER). FASTER strebt an, die Redundanz zwischen benachbarten Abschnitten auszunutzen und den Rechenaufwand zu reduzieren, indem es lernt, Vorhersagen von Modellen unterschiedlicher Komplexität zu aggregieren. Das FASTER-Framework kann hochwertige Darstellungen von aufwändigen Modellen integrieren, um feine Bewegungsinformationen zu erfassen, sowie leichte Darstellungen von günstigen Modellen, um Szenenwechsel im Video abzudecken. Ein neues rekurrentes Netzwerk (nämlich FAST-GRU) wurde entwickelt, um die Mischung verschiedener Darstellungen zu aggregieren. Verglichen mit bestehenden Ansätzen kann FASTER den Rechenaufwand (FLOPs) um mehr als das Zehnfache reduzieren, während es den Stand der Technik in Bezug auf Genauigkeit bei populären Datensätzen wie Kinetics, UCF-101 und HMDB-51 beibehält.