HyperAIHyperAI

Command Palette

Search for a command to run...

X3D: Erweiterung von Architekturen für effiziente Videoerkenntnis

Christoph Feichtenhofer

Zusammenfassung

Diese Arbeit präsentiert X3D, eine Familie effizienter Video-Netzwerke, die eine sehr kleine 2D-Bildklassifizierungsarchitektur schrittweise entlang mehrerer Netzwerk-Achsen – räumlich, zeitlich, in der Breite und in der Tiefe – erweitern. Inspiriert von Methoden zur Merkmalsauswahl im maschinellen Lernen wird ein einfacher, schrittweiser Ansatz zur Netzwerk-Erweiterung verwendet, bei dem in jedem Schritt jeweils nur eine einzige Achse erweitert wird, um ein optimales Verhältnis zwischen Genauigkeit und Komplexität zu erreichen. Um X3D auf eine bestimmte Zielkomplexität zu skalieren, führen wir eine progressive Vorwärts-Erweiterung gefolgt von einer Rückwärts-Kontraktion durch. X3D erreicht Spitzenleistung bei vergleichbarer Genauigkeit, wobei jedoch 4,8-mal weniger Multiply-Add-Operationen und 5,5-mal weniger Parameter benötigt werden im Vergleich zu vorherigen Ansätzen. Unser überraschendster Befund ist, dass Netzwerke mit hoher räumlich-zeitlicher Auflösung hervorragende Leistung erzielen können, gleichzeitig aber äußerst schlank in Bezug auf Netzwerk-Breite und Parameteranzahl sind. Wir berichten über konkurrenzfähige Genauigkeit bei bisher unerreichter Effizienz auf Benchmarks für Video-Klassifizierung und -Erkennung. Der Quellcode wird unter: https://github.com/facebookresearch/SlowFast verfügbar sein.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp