HyperAIHyperAI
vor 17 Tagen

X3D: Erweiterung von Architekturen für effiziente Videoerkenntnis

Christoph Feichtenhofer
X3D: Erweiterung von Architekturen für effiziente Videoerkenntnis
Abstract

Diese Arbeit präsentiert X3D, eine Familie effizienter Video-Netzwerke, die eine sehr kleine 2D-Bildklassifizierungsarchitektur schrittweise entlang mehrerer Netzwerk-Achsen – räumlich, zeitlich, in der Breite und in der Tiefe – erweitern. Inspiriert von Methoden zur Merkmalsauswahl im maschinellen Lernen wird ein einfacher, schrittweiser Ansatz zur Netzwerk-Erweiterung verwendet, bei dem in jedem Schritt jeweils nur eine einzige Achse erweitert wird, um ein optimales Verhältnis zwischen Genauigkeit und Komplexität zu erreichen. Um X3D auf eine bestimmte Zielkomplexität zu skalieren, führen wir eine progressive Vorwärts-Erweiterung gefolgt von einer Rückwärts-Kontraktion durch. X3D erreicht Spitzenleistung bei vergleichbarer Genauigkeit, wobei jedoch 4,8-mal weniger Multiply-Add-Operationen und 5,5-mal weniger Parameter benötigt werden im Vergleich zu vorherigen Ansätzen. Unser überraschendster Befund ist, dass Netzwerke mit hoher räumlich-zeitlicher Auflösung hervorragende Leistung erzielen können, gleichzeitig aber äußerst schlank in Bezug auf Netzwerk-Breite und Parameteranzahl sind. Wir berichten über konkurrenzfähige Genauigkeit bei bisher unerreichter Effizienz auf Benchmarks für Video-Klassifizierung und -Erkennung. Der Quellcode wird unter: https://github.com/facebookresearch/SlowFast verfügbar sein.