Gate-Shift-Fuse für die Video-Aktionserkennung

Convolutional Neural Networks sind die Standardmodelle für die Bilderkennung. Allerdings haben 3D-CNNs, die direkte Erweiterung von 2D-CNNs für die Videobearbeitung, auf etablierten Benchmarks zur Aktionserkennung nicht die gleiche Leistung erzielt. Ein zentraler Grund für die reduzierte Leistung von 3D-CNNs liegt in der erhöhten rechnerischen Komplexität, die große, annotierte Datensätze erfordert, um die Modelle skalierbar zu trainieren. Um die Komplexität von 3D-CNNs zu verringern, wurden Ansätze zur Faktorisierung von 3D-Kernen vorgeschlagen. Bisherige Methoden zur Kernelsfaktorisierung basieren auf handgestalteten, fest verdrahteten Techniken. In diesem Paper stellen wir GSF (Gate-Shift-Fuse) vor – ein neuartiges spatio-temporales Merkmalsextraktionsmodul, das die Interaktionen bei der spatio-temporalen Zerlegung steuert und lernt, Merkmale zeitabhängig adaptiv zu routen sowie in datenabhängiger Weise zu kombinieren. GSF nutzt gruppierte räumliche Gating, um den Eingabetensor zu zerlegen, und Kanalgewichtung, um die zerlegten Tensoren zu fusionieren. GSF lässt sich nahtlos in bestehende 2D-CNNs integrieren, um diese zu effizienten und hochleistungsfähigen spatio-temporalen Merkmalsextraktoren zu machen, wobei der Zusatzaufwand an Parametern und Berechnungen vernachlässigbar gering ist. Wir führen eine umfassende Analyse von GSF an zwei populären 2D-CNN-Familien durch und erreichen auf fünf etablierten Benchmarks zur Aktionserkennung Zustand-des-Kunst- oder konkurrenzfähige Ergebnisse.