HyperAIHyperAI
vor 2 Monaten

Proposal-basiertes Mehrfach-Instanz-Lernen für schwach überwachte zeitliche Aktionserkennung

Huan Ren; Wenfei Yang; Tianzhu Zhang; Yongdong Zhang
Proposal-basiertes Mehrfach-Instanz-Lernen für schwach überwachte zeitliche Aktionserkennung
Abstract

Die schwach überwachte zeitliche Aktionserkennung (Weakly-supervised Temporal Action Localization) zielt darauf ab, Aktionen in unbeschnittenen Videos zu lokalisieren und zu erkennen, wobei während des Trainings nur Video-Level-Kategoriebezeichnungen verwendet werden. Ohne Instanz-Level-Annotierungen folgen die meisten existierenden Methoden dem Segment-basierten Mehrfachinstanzen-Lernframework (S-MIL), bei dem die Vorhersagen der Segmente durch die Bezeichnungen der Videos überwacht werden. Allerdings ist das Ziel der Erstellung von Segment-Level-Scores während des Trainings nicht konsistent mit dem Ziel der Erstellung von Vorschlag-Level-Scores während des Testens, was zu suboptimalen Ergebnissen führt. Um dieses Problem zu lösen, schlagen wir ein neues Vorschlag-basiertes Mehrfachinstanzen-Lernframework (P-MIL) vor, das die Kandidaten-Vorschläge sowohl im Training als auch im Test direkt klassifiziert. Dieses Framework umfasst drei zentrale Designelemente: 1) ein umgebungsgegenüberstellungsbasiertes Merkmalsextraktionsmodul zur Unterdrückung diskriminativer kurzer Vorschläge durch Berücksichtigung der umgebungsgegenüberstellenden Informationen, 2) ein Modul zur Bewertung der Vollständigkeit von Vorschlägen zur Hemmung niedriger Qualitätsvorschläge unter Anleitung durch Vollständigkeits-Pseudobezichnungen und 3) einen instanzbasierten Rangkonsistenzverlust zur robusten Detektion durch Nutzung der Komplementarität der RGB- und FLOW-Modalitäten. Ausführliche Experimente auf zwei anspruchsvollen Benchmarks, einschließlich THUMOS14 und ActivityNet, zeigen die überlegene Leistungsfähigkeit unserer Methode.请注意,这里有一些术语在德语中没有广泛接受的翻译,因此我保留了英文原词并加上了德语注释以供参考:- "Vorschlag-basiertes Mehrfachinstanzen-Lernframework" (Proposal-based Multiple Instance Learning)- "umgebungsgegenüberstellungsbasiertes Merkmalsextraktionsmodul" (surrounding contrastive feature extraction module)- "Vollständigkeits-Pseudobezichnungen" (completeness pseudo labels)- "Rangkonsistenzverlust" (rank consistency loss)如果您有特定的术语偏好或需要进一步调整,请告知。

Proposal-basiertes Mehrfach-Instanz-Lernen für schwach überwachte zeitliche Aktionserkennung | Neueste Forschungsarbeiten | HyperAI