HyperAIHyperAI
vor 2 Monaten

Effiziente Videoklassifizierung mit weniger Bildern

Shweta Bhardwaj; Mukundhan Srinivasan; Mitesh M. Khapra
Effiziente Videoklassifizierung mit weniger Bildern
Abstract

Kürzlich gab es großes Interesse an der Entwicklung kompakter Modelle für die Videoklassifizierung, die einen geringen Speicherbedarf (<1 GB) haben. Obwohl diese Modelle kompakt sind, funktionieren sie in der Regel durch wiederholte Anwendung einer kleinen Gewichtsmatrix auf alle Frames eines Videos. Zum Beispiel berechnen rekurrente neuronale Netzwerke (RNN) für jeden Frame des Videos einen verborgenen Zustand unter Verwendung einer rekurrenten Gewichtsmatrix. Ähnlich verfahren Clustern-und-Aggregieren-basierte Methoden wie NetVLAD mit einer lernfähigen Clustermatrix, die verwendet wird, um jedem Frame im Video weiche Cluster zuzuweisen. Da diese Modelle jeden Frame des Videos betrachten, ist die Anzahl der Gleitkommaoperationen (FLOPs) trotz des geringen Speicherbedarfs immer noch groß. Wir konzentrieren uns darauf, recheneffiziente Videoklassifizierungsmodelle zu entwickeln, die weniger Frames verarbeiten und daher eine geringere Anzahl von FLOPs haben. Wie bei speichereffizienten Modellen nutzen wir das Konzept der Destillation, jedoch in einem anderen Kontext. Im Speziellen verwenden wir in unserem Fall ein rechenintensives Lehrmodell (Teacher), das alle Frames des Videos betrachtet, um ein recheneffizientes Schülersystem (Student) zu trainieren, das nur einen kleinen Teil der Frames im Video ansieht. Dies steht im Gegensatz zur üblichen speichereffizienten Lehrer-Schüler-Einstellung, bei der sowohl Lehrer als auch Schüler alle Frames des Videos betrachten, aber der Schüler weniger Parameter hat. Unser Werk ergänzt somit die Forschung zur speichereffizienten Videoklassifizierung. Wir führen eine umfassende Evaluierung mit drei Arten von Modellen für die Videoklassifizierung durch: (i) rekurrente Modelle (ii) Clustern-und-Aggregieren-basierte Modelle und (iii) speichereffiziente Clustern-und-Aggregieren-basierte Modelle und zeigen, dass in jedem dieser Fälle ein alles sehendes Lehrmodell verwendet werden kann, um ein sehr wenig sehendes Schülersystem zu trainieren. Wir demonstrieren, dass das vorgeschlagene Schülersystem den Inferenzzeitraum um 30 % reduzieren und die Anzahl der FLOPs um etwa 90 % verringern kann, wobei der Leistungsverlust vernachlässigbar ist.

Effiziente Videoklassifizierung mit weniger Bildern | Neueste Forschungsarbeiten | HyperAI