Temporally-adaptive Modelle für eine effiziente Videoverstehens

Raumliche Faltungen werden in zahlreichen tiefen Video-Modellen weit verbreitet eingesetzt. Sie basieren grundlegend auf der Annahme von raumzeitlicher Invarianz, d.h., dass für jede Position in verschiedenen Frames gemeinsame Gewichte verwendet werden. In dieser Arbeit präsentieren wir temporat-adaptive Faltungen (TAdaConv) für die Video-Verständnis-Aufgabe, wobei gezeigt wird, dass eine adaptive Gewichtskalibrierung entlang der zeitlichen Dimension eine effiziente Methode darstellt, um komplexe zeitliche Dynamiken in Videos zu modellieren. Konkret ermöglicht TAdaConv raumlichen Faltungen zeitliche Modellierungsfähigkeiten, indem die Faltungs-Gewichte für jeden Frame entsprechend seinem lokalen und globalen zeitlichen Kontext kalibriert werden. Im Vergleich zu bestehenden Ansätzen zur zeitlichen Modellierung ist TAdaConv effizienter, da es direkt auf den Faltungs-Kernen anstelle auf den Merkmalen operiert, deren Dimension um eine Größenordnung kleiner ist als die räumlichen Auflösungen. Darüber hinaus führt die Kalibrierung der Kerne zu einer erhöhten Modellkapazität. Auf Basis dieser einfach einzubindenden Operation TAdaConv sowie ihrer Erweiterung, TAdaConvV2, konstruieren wir TAdaBlocks, um ConvNeXt- und Vision Transformer-Modelle mit starken zeitlichen Modellierungsfähigkeiten auszustatten. Empirische Ergebnisse zeigen, dass TAdaConvNeXtV2 und TAdaFormer gegenüber aktuellen Spitzenmodellen basierend auf Faltungen und Transformer in verschiedenen Benchmarks für Video-Verständnis wettbewerbsfähig abschneiden. Unsere Codes und Modelle sind unter folgender Adresse verfügbar: https://github.com/alibaba-mmai-research/TAdaConv.