ASM-Loc: Action-aware Segment Modeling für weakly-supervised Temporal Action Localization

Schwach beschriftete zeitliche Aktionslokalisierung zielt darauf ab, Aktionsabschnitte in ungeschnittenen Videos zu erkennen und zu lokalisieren, wobei lediglich video-level-Aktionslabels für das Training zur Verfügung stehen. Da keine Informationen über die Grenzen der Aktionsabschnitte gegeben sind, stützen sich bestehende Methoden hauptsächlich auf das mehrinstanzbasierte Lernen (Multiple Instance Learning, MIL), bei dem die Vorhersagen unlabeled Instanzen (d. h. Video-Snippets) durch die Klassifizierung von labeled Bags (d. h. ungeschnittene Videos) supervidiert werden. Diese Formulierung behandelt jedoch die Snippets innerhalb eines Videos meist als unabhängige Instanzen und ignoriert die zugrundeliegenden zeitlichen Strukturen innerhalb und zwischen den Aktionsabschnitten. Um dieses Problem anzugehen, schlagen wir \system vor, einen neuartigen WTAL-Framework, der eine explizite, aktionsbewusste Segmentmodellierung über die herkömmlichen MIL-basierten Ansätze hinaus ermöglicht. Unser Framework umfasst drei segmentzentrierte Komponenten: (i) dynamische Segment-Sampling zur Kompensation des Beitrags kurzer Aktionen; (ii) intra- und inter-segment Aufmerksamkeit zur Modellierung von Aktionsdynamiken und zur Erfassung zeitlicher Abhängigkeiten; (iii) Pseudo-Instanz-Level-Supervision zur Verbesserung der Vorhersage von Aktionsgrenzen. Zudem wird eine mehrstufige Verfeinerungsstrategie vorgeschlagen, die die schrittweise Verbesserung der Aktionsvorschläge während des Trainingsprozesses ermöglicht. Umfassende Experimente auf THUMOS-14 und ActivityNet-v1.3 belegen die Wirksamkeit unseres Ansatzes und etablieren neue State-of-the-Art-Ergebnisse auf beiden Datensätzen. Der Quellcode und die Modelle sind öffentlich unter ~\url{https://github.com/boheumd/ASM-Loc} verfügbar.