HyperAIHyperAI

Command Palette

Search for a command to run...

Mehrsträngige Netzwerke für die Videoerkennung

Yunpeng Chen; Yannis Kalantidis; Jianshu Li; Shuicheng Yan; Jiashi Feng

Zusammenfassung

In dieser Arbeit zielen wir darauf ab, die Rechenkosten von räumlich-zeitlichen tiefen Neuronalen Netzen zu reduzieren, sodass sie genauso schnell wie ihre 2D-Gegenstücke laufen, während dennoch den Stand der Technik entsprechende Genauigkeit bei Videoerkennungsbenchmarks beibehalten. Zu diesem Zweck stellen wir die neuartige Multi-Fiber-Architektur vor, die ein komplexes neuronales Netz in eine Ensemble von leichten Netzen oder Fasern aufteilt, die durch das Netzwerk verlaufen. Um den Informationsaustausch zwischen den Fasern zu erleichtern, integrieren wir zudem Multiplexer-Module und erhalten so eine Architektur, die die Rechenkosten von 3D-Netzen um einen Faktor von zehn reduziert, gleichzeitig aber auch die Erkennungsleistung verbessert. Ausführliche experimentelle Ergebnisse zeigen, dass unsere Multi-Fiber-Architektur die Effizienz bestehender Faltungsnetze sowohl für Bild- als auch für Videoverarbeitungsaufgaben erheblich steigert und dabei Top-Leistungen auf den Datensätzen UCF-101, HMDB-51 und Kinetics erreicht. Unser vorgeschlagenes Modell benötigt jeweils mehr als 9-mal und 13-mal weniger Berechnungen als die I3D- und R(2+1)D-Modelle (R(2+1)D), wobei es gleichzeitig höhere Genauigkeit bietet.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Mehrsträngige Netzwerke für die Videoerkennung | Paper | HyperAI