HyperAIHyperAI

Command Palette

Search for a command to run...

Temporally-adaptive Modelle für eine effiziente Videoverstehens

Ziyuan Huang Shiwei Zhang Liang Pan Zhiwu Qing Yingya Zhang Ziwei Liu Marcelo H. Ang Jr

Zusammenfassung

Raumliche Faltungen werden in zahlreichen tiefen Video-Modellen weit verbreitet eingesetzt. Sie basieren grundlegend auf der Annahme von raumzeitlicher Invarianz, d.h., dass für jede Position in verschiedenen Frames gemeinsame Gewichte verwendet werden. In dieser Arbeit präsentieren wir temporat-adaptive Faltungen (TAdaConv) für die Video-Verständnis-Aufgabe, wobei gezeigt wird, dass eine adaptive Gewichtskalibrierung entlang der zeitlichen Dimension eine effiziente Methode darstellt, um komplexe zeitliche Dynamiken in Videos zu modellieren. Konkret ermöglicht TAdaConv raumlichen Faltungen zeitliche Modellierungsfähigkeiten, indem die Faltungs-Gewichte für jeden Frame entsprechend seinem lokalen und globalen zeitlichen Kontext kalibriert werden. Im Vergleich zu bestehenden Ansätzen zur zeitlichen Modellierung ist TAdaConv effizienter, da es direkt auf den Faltungs-Kernen anstelle auf den Merkmalen operiert, deren Dimension um eine Größenordnung kleiner ist als die räumlichen Auflösungen. Darüber hinaus führt die Kalibrierung der Kerne zu einer erhöhten Modellkapazität. Auf Basis dieser einfach einzubindenden Operation TAdaConv sowie ihrer Erweiterung, TAdaConvV2, konstruieren wir TAdaBlocks, um ConvNeXt- und Vision Transformer-Modelle mit starken zeitlichen Modellierungsfähigkeiten auszustatten. Empirische Ergebnisse zeigen, dass TAdaConvNeXtV2 und TAdaFormer gegenüber aktuellen Spitzenmodellen basierend auf Faltungen und Transformer in verschiedenen Benchmarks für Video-Verständnis wettbewerbsfähig abschneiden. Unsere Codes und Modelle sind unter folgender Adresse verfügbar: https://github.com/alibaba-mmai-research/TAdaConv.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp