HyperAIHyperAI
vor 2 Monaten

Mehrsträngige Netzwerke für die Videoerkennung

Yunpeng Chen; Yannis Kalantidis; Jianshu Li; Shuicheng Yan; Jiashi Feng
Mehrsträngige Netzwerke für die Videoerkennung
Abstract

In dieser Arbeit zielen wir darauf ab, die Rechenkosten von räumlich-zeitlichen tiefen Neuronalen Netzen zu reduzieren, sodass sie genauso schnell wie ihre 2D-Gegenstücke laufen, während dennoch den Stand der Technik entsprechende Genauigkeit bei Videoerkennungsbenchmarks beibehalten. Zu diesem Zweck stellen wir die neuartige Multi-Fiber-Architektur vor, die ein komplexes neuronales Netz in eine Ensemble von leichten Netzen oder Fasern aufteilt, die durch das Netzwerk verlaufen. Um den Informationsaustausch zwischen den Fasern zu erleichtern, integrieren wir zudem Multiplexer-Module und erhalten so eine Architektur, die die Rechenkosten von 3D-Netzen um einen Faktor von zehn reduziert, gleichzeitig aber auch die Erkennungsleistung verbessert. Ausführliche experimentelle Ergebnisse zeigen, dass unsere Multi-Fiber-Architektur die Effizienz bestehender Faltungsnetze sowohl für Bild- als auch für Videoverarbeitungsaufgaben erheblich steigert und dabei Top-Leistungen auf den Datensätzen UCF-101, HMDB-51 und Kinetics erreicht. Unser vorgeschlagenes Modell benötigt jeweils mehr als 9-mal und 13-mal weniger Berechnungen als die I3D- und R(2+1)D-Modelle (R(2+1)D), wobei es gleichzeitig höhere Genauigkeit bietet.