2D oder nicht 2D? Adaptive Auswahl von 3D-Convolutionen für effiziente Videoerkenntnis

3D-Faltungsnetzwerke sind verbreitet für die Videoerkennung. Obwohl sie hervorragende Erkennungsergebnisse auf Standardbenchmarks erzielen, arbeiten sie mit einer Folge von Bildern unter Verwendung von 3D-Faltungen und sind daher rechenintensiv. Ausnutzend die großen Unterschiede zwischen verschiedenen Videos führen wir Ada3D ein, einen Rahmen für bedingte Berechnung, der instanzspezifische 3D-Nutzungsrichtlinien lernt, um festzulegen, welche Bilder und Faltungsschichten in einem 3D-Netzwerk verwendet werden sollen. Diese Richtlinien werden mit einem zweiköpfigen, leichtgewichtigen Auswahlnetzwerk abgeleitet, das jeweils auf einen Eingabevideoclip bedingt ist. Anschließend werden in dem 3D-Modell nur jene Bilder und Faltungsschichten verwendet, die vom Auswahlnetzwerk ausgewählt wurden, um Vorhersagen zu generieren. Das Auswahlnetzwerk wird mit Methoden des Policy Gradient optimiert, um eine Belohnung zu maximieren, die korrekte Vorhersagen bei begrenztem Rechenaufwand fördert. Wir führen Experimente auf drei Videoerkennungsbenchmarks durch und zeigen, dass unsere Methode vergleichbare Genauigkeiten wie aktuelle State-of-the-Art-3D-Modelle erzielt, dabei aber auf verschiedenen Datensätzen 20 % bis 50 % weniger Rechenleistung benötigt. Zudem zeigen wir, dass die gelernten Richtlinien übertragbar sind und Ada3D mit unterschiedlichen Backbone-Architekturen sowie modernen Ansätzen zur Clip-Auswahl kompatibel ist. Unsere qualitative Analyse zeigt, dass unsere Methode für „statische“ Eingaben weniger 3D-Faltungen und Bilder verwendet, hingegen mehr für bewegungsintensive Clips.