HyperAIHyperAI

Command Palette

Search for a command to run...

Effiziente Videoklassifizierung mit weniger Bildern

Shweta Bhardwaj Mukundhan Srinivasan Mitesh M. Khapra

Zusammenfassung

Kürzlich gab es großes Interesse an der Entwicklung kompakter Modelle für die Videoklassifizierung, die einen geringen Speicherbedarf (<1 GB) haben. Obwohl diese Modelle kompakt sind, funktionieren sie in der Regel durch wiederholte Anwendung einer kleinen Gewichtsmatrix auf alle Frames eines Videos. Zum Beispiel berechnen rekurrente neuronale Netzwerke (RNN) für jeden Frame des Videos einen verborgenen Zustand unter Verwendung einer rekurrenten Gewichtsmatrix. Ähnlich verfahren Clustern-und-Aggregieren-basierte Methoden wie NetVLAD mit einer lernfähigen Clustermatrix, die verwendet wird, um jedem Frame im Video weiche Cluster zuzuweisen. Da diese Modelle jeden Frame des Videos betrachten, ist die Anzahl der Gleitkommaoperationen (FLOPs) trotz des geringen Speicherbedarfs immer noch groß. Wir konzentrieren uns darauf, recheneffiziente Videoklassifizierungsmodelle zu entwickeln, die weniger Frames verarbeiten und daher eine geringere Anzahl von FLOPs haben. Wie bei speichereffizienten Modellen nutzen wir das Konzept der Destillation, jedoch in einem anderen Kontext. Im Speziellen verwenden wir in unserem Fall ein rechenintensives Lehrmodell (Teacher), das alle Frames des Videos betrachtet, um ein recheneffizientes Schülersystem (Student) zu trainieren, das nur einen kleinen Teil der Frames im Video ansieht. Dies steht im Gegensatz zur üblichen speichereffizienten Lehrer-Schüler-Einstellung, bei der sowohl Lehrer als auch Schüler alle Frames des Videos betrachten, aber der Schüler weniger Parameter hat. Unser Werk ergänzt somit die Forschung zur speichereffizienten Videoklassifizierung. Wir führen eine umfassende Evaluierung mit drei Arten von Modellen für die Videoklassifizierung durch: (i) rekurrente Modelle (ii) Clustern-und-Aggregieren-basierte Modelle und (iii) speichereffiziente Clustern-und-Aggregieren-basierte Modelle und zeigen, dass in jedem dieser Fälle ein alles sehendes Lehrmodell verwendet werden kann, um ein sehr wenig sehendes Schülersystem zu trainieren. Wir demonstrieren, dass das vorgeschlagene Schülersystem den Inferenzzeitraum um 30 % reduzieren und die Anzahl der FLOPs um etwa 90 % verringern kann, wobei der Leistungsverlust vernachlässigbar ist.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Effiziente Videoklassifizierung mit weniger Bildern | Paper | HyperAI