vor 17 Tagen

TAda! Temporally-Adaptive Convolutionen für die Videoverstehens

Ziyuan Huang, Shiwei Zhang, Liang Pan, Zhiwu Qing, Mingqian Tang, Ziwei Liu, Marcelo H. Ang Jr

Abstract

Raumliche Faltungen werden in zahlreichen tiefen Videomodellen weit verbreitet eingesetzt. Sie basieren grundlegend auf der Annahme von raumzeitlicher Invarianz, d.h., dass für jede Position in verschiedenen Frames gleiche Gewichte verwendet werden. Diese Arbeit stellt temporat-adaptive Faltungen (TAdaConv) für die Videoverstehensaufgabe vor, die zeigen, dass eine adaptive Gewichtskalibrierung entlang der zeitlichen Dimension eine effiziente Methode darstellt, um komplexe zeitliche Dynamiken in Videos zu modellieren. Konkret ermöglicht TAdaConv den raumlichen Faltungen, zeitliche Modellierungsfähigkeiten zu erlangen, indem die Faltungs-Gewichte für jeden Frame entsprechend seinem lokalen und globalen zeitlichen Kontext angepasst werden. Im Vergleich zu früheren zeitlichen Modellierungsoperationen ist TAdaConv effizienter, da sie an den Faltungs-Kernen anstelle der Features operiert, deren Dimension um eine Größenordnung kleiner ist als die räumlichen Auflösungen. Darüber hinaus führt die Kerne-Kalibrierung zu einer erhöhten Modellkapazität. Wir konstruieren die Netzwerke TAda2D und TAdaConvNeXt, indem wir die 2D-Faltungen in ResNet und ConvNeXt durch TAdaConv ersetzen, was zu mindestens gleichwertigen oder sogar besseren Ergebnissen im Vergleich zu aktuellen Spitzenverfahren auf mehreren Benchmarks für Video-Aktionserkennung und -lokalisierung führt. Außerdem zeigen wir, dass TAdaConv als eine einfach integrierbare Operation mit vernachlässigbarem Rechenaufwand viele bestehende Videomodelle mit einer überzeugenden Verbesserung effektiv verbessern kann.