Command Palette
Search for a command to run...
Multilevel semantische und adaptive Actionness-Lernverfahren für die schwach überwachte zeitliche Aktionslokalisierung
Multilevel semantische und adaptive Actionness-Lernverfahren für die schwach überwachte zeitliche Aktionslokalisierung
Cerui Dong Zilei Wang Zhilin Li
Zusammenfassung
Die schwach überwachte zeitliche Aktionsslokalisierung zielt darauf ab, Aktionseinheiten in ungeschnittenen Videos zu identifizieren und zu lokalisieren, wobei lediglich Video-Level-Labels zur Verfügung stehen. Typischerweise basieren die meisten Methoden auf einem Multiple-Instance-Learning-Rahmenwerk, das eine Top-K-Strategie nutzt, um auffällige Segmente auszuwählen, die das gesamte Video repräsentieren. Dadurch kann jedoch feinabgestimmte Video-Information nicht erlernt werden, was zu einer schlechten Leistung bei der Aktionssklassifizierung und -lokalisierung führt. In diesem Artikel stellen wir ein Multilevel Semantic and Adaptive Actionness Learning Network (SAL) vor, das hauptsächlich aus einem Multilevel Semantic Learning (MSL)-Zweig und einem Adaptive Actionness Learning (AAL)-Zweig besteht. Der MSL-Zweig führt zweite Ordnung Video-Semantik ein, die feinabgestimmte Informationen in Videos erfassen kann und die Video-Level-Klassifizierung verbessert. Zudem propagieren wir die zweite Ordnung Semantik auf Aktionssegmente, um die Unterschiede zwischen verschiedenen Aktionen zu verstärken. Der AAL-Zweig nutzt Pseudolabels, um klassenunabhängige Aktioneninformationen zu lernen. Er führt eine Video-Segmente-Mix-up-Strategie ein, um die Generalisierungsfähigkeit für den Vordergrund zu verbessern, und fügt eine adaptive Actionness-Maske hinzu, um die Qualität und Quantität der Pseudolabels auszugleichen, wodurch die Stabilität des Trainings erhöht wird. Umfangreiche Experimente zeigen, dass SAL auf drei Benchmarks Ergebnisse auf State-of-the-Art-Niveau erzielt. Code: https://github.com/lizhilin-ustc/SAL