HyperAIHyperAI
vor 12 Tagen

Multilevel semantische und adaptive Actionness-Lernverfahren für die schwach überwachte zeitliche Aktionslokalisierung

{Cerui Dong, Zilei Wang, Zhilin Li}
Abstract

Die schwach überwachte zeitliche Aktionsslokalisierung zielt darauf ab, Aktionseinheiten in ungeschnittenen Videos zu identifizieren und zu lokalisieren, wobei lediglich Video-Level-Labels zur Verfügung stehen. Typischerweise basieren die meisten Methoden auf einem Multiple-Instance-Learning-Rahmenwerk, das eine Top-K-Strategie nutzt, um auffällige Segmente auszuwählen, die das gesamte Video repräsentieren. Dadurch kann jedoch feinabgestimmte Video-Information nicht erlernt werden, was zu einer schlechten Leistung bei der Aktionssklassifizierung und -lokalisierung führt. In diesem Artikel stellen wir ein Multilevel Semantic and Adaptive Actionness Learning Network (SAL) vor, das hauptsächlich aus einem Multilevel Semantic Learning (MSL)-Zweig und einem Adaptive Actionness Learning (AAL)-Zweig besteht. Der MSL-Zweig führt zweite Ordnung Video-Semantik ein, die feinabgestimmte Informationen in Videos erfassen kann und die Video-Level-Klassifizierung verbessert. Zudem propagieren wir die zweite Ordnung Semantik auf Aktionssegmente, um die Unterschiede zwischen verschiedenen Aktionen zu verstärken. Der AAL-Zweig nutzt Pseudolabels, um klassenunabhängige Aktioneninformationen zu lernen. Er führt eine Video-Segmente-Mix-up-Strategie ein, um die Generalisierungsfähigkeit für den Vordergrund zu verbessern, und fügt eine adaptive Actionness-Maske hinzu, um die Qualität und Quantität der Pseudolabels auszugleichen, wodurch die Stabilität des Trainings erhöht wird. Umfangreiche Experimente zeigen, dass SAL auf drei Benchmarks Ergebnisse auf State-of-the-Art-Niveau erzielt. Code: https://github.com/lizhilin-ustc/SAL

Multilevel semantische und adaptive Actionness-Lernverfahren für die schwach überwachte zeitliche Aktionslokalisierung | Neueste Forschungsarbeiten | HyperAI