HyperAIHyperAI

Command Palette

Search for a command to run...

Proposal-basiertes Mehrfach-Instanz-Lernen für schwach überwachte zeitliche Aktionserkennung

Huan Ren¹, Wenfei Yang¹, Tianzhu Zhang¹,², Yongdong Zhang¹

Zusammenfassung

Die schwach überwachte zeitliche Aktionserkennung (Weakly-supervised Temporal Action Localization) zielt darauf ab, Aktionen in unbeschnittenen Videos zu lokalisieren und zu erkennen, wobei während des Trainings nur Video-Level-Kategoriebezeichnungen verwendet werden. Ohne Instanz-Level-Annotierungen folgen die meisten existierenden Methoden dem Segment-basierten Mehrfachinstanzen-Lernframework (S-MIL), bei dem die Vorhersagen der Segmente durch die Bezeichnungen der Videos überwacht werden. Allerdings ist das Ziel der Erstellung von Segment-Level-Scores während des Trainings nicht konsistent mit dem Ziel der Erstellung von Vorschlag-Level-Scores während des Testens, was zu suboptimalen Ergebnissen führt. Um dieses Problem zu lösen, schlagen wir ein neues Vorschlag-basiertes Mehrfachinstanzen-Lernframework (P-MIL) vor, das die Kandidaten-Vorschläge sowohl im Training als auch im Test direkt klassifiziert. Dieses Framework umfasst drei zentrale Designelemente: 1) ein umgebungsgegenüberstellungsbasiertes Merkmalsextraktionsmodul zur Unterdrückung diskriminativer kurzer Vorschläge durch Berücksichtigung der umgebungsgegenüberstellenden Informationen, 2) ein Modul zur Bewertung der Vollständigkeit von Vorschlägen zur Hemmung niedriger Qualitätsvorschläge unter Anleitung durch Vollständigkeits-Pseudobezichnungen und 3) einen instanzbasierten Rangkonsistenzverlust zur robusten Detektion durch Nutzung der Komplementarität der RGB- und FLOW-Modalitäten. Ausführliche Experimente auf zwei anspruchsvollen Benchmarks, einschließlich THUMOS14 und ActivityNet, zeigen die überlegene Leistungsfähigkeit unserer Methode.请注意,这里有一些术语在德语中没有广泛接受的翻译,因此我保留了英文原词并加上了德语注释以供参考:- "Vorschlag-basiertes Mehrfachinstanzen-Lernframework" (Proposal-based Multiple Instance Learning)- "umgebungsgegenüberstellungsbasiertes Merkmalsextraktionsmodul" (surrounding contrastive feature extraction module)- "Vollständigkeits-Pseudobezichnungen" (completeness pseudo labels)- "Rangkonsistenzverlust" (rank consistency loss)如果您有特定的术语偏好或需要进一步调整,请告知。


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Proposal-basiertes Mehrfach-Instanz-Lernen für schwach überwachte zeitliche Aktionserkennung | Paper | HyperAI