End-to-End zeitliche Aktionsdetektion mit 1B Parametern über 1000 Frames

Kürzlich konnten bei der zeitlichen Aktionsdetektion (Temporal Action Detection, TAD) erhebliche Leistungssteigerungen durch end-to-end-Training erzielt werden. Aufgrund der Speicherbegrenzung können jedoch nur Modelle mit begrenzter Größe und begrenzten Datenmengen end-to-end trainiert werden, was die TAD-Leistung zwangsläufig einschränkt. In diesem Artikel reduzieren wir den Speicherverbrauch beim end-to-end-Training und gelangen damit dazu, den TAD-Backbone auf eine Größe von 1 Milliarde Parameter und die Eingabevideos auf 1.536 Frames zu skalieren, was zu einer signifikanten Verbesserung der Detektionsleistung führt. Der Schlüssel unseres Ansatzes liegt in dem von uns vorgeschlagenen temporal-informativen Adapter (Temporal-Informative Adapter, TIA), einem neuartigen, leichtgewichtigen Modul, das den Trainings-Speicherverbrauch reduziert. Mit Hilfe des TIA entkoppeln wir den umfangreichen Backbone von der Notwendigkeit, sich an die TAD-Aufgabe anzupassen, da lediglich die Parameter im TIA aktualisiert werden. Zudem verbessert der TIA die TAD-Repräsentation durch zeitliche Aggregation von Kontextinformationen aus benachbarten Frames über den gesamten Backbone hinweg. Wir evaluieren unser Modell an vier repräsentativen Datensätzen. Aufgrund unserer effizienten Architektur gelingt es uns, end-to-end auf VideoMAEv2-giant zu trainieren und erreichen eine mAP von 75,4 % auf THUMOS14 – das erste end-to-end-Modell, das die besten feature-basierten Methoden übertrifft. Der Quellcode ist unter https://github.com/sming256/AdaTAD verfügbar.