HyperAIHyperAI

Command Palette

Search for a command to run...

Von Neuem zur Trennung von Vorder- und Hintergrund in schwach überwachter zeitlicher Aktionslokalisation: Ein clusterbasierter Ansatz

Qinying Liu Zilei Wang* Shanghai Rong Junjie Li Yixin Zhang

Zusammenfassung

Die schwach überwachte zeitliche Aktionserkennung (Weakly-supervised Temporal Action Localization) strebt danach, Aktionen in Videos auf Videoebene nur mit Aktionslabels zu lokalisieren. Bestehende Methoden setzen hauptsächlich auf einen Klassifizierungsansatz zur Lokalisierung, der die Snippet-Level-Vorhersage mit einem Video-Klassifikationsverlust optimiert. Allerdings führt diese Formulierung zu einer Diskrepanz zwischen Klassifizierung und Detektion, was zu ungenauen Trennungen von Vorder- und Hintergrund-Snippets (Foreground and Background, F&B) führt. Um dieses Problem zu mildern, schlagen wir vor, die zugrunde liegende Struktur der Snippets durch unsupervisiertes Snippet-Clustering zu erforschen, anstatt stark auf den Video-Klassifikationsverlust zu bauen. Insbesondere entwickeln wir einen neuen clustergestützten Algorithmus zur Trennung von Vorder- und Hintergrund-Snippets (F&B). Dieser besteht aus zwei Kernkomponenten: einer Snippet-Clustering-Komponente, die die Snippets in mehrere latente Cluster gruppiert, und einer Clusterklassifikationskomponente, die die Cluster weiter als Vorder- oder Hintergrund klassifiziert. Da es keine Ground-Truth-Labels gibt, um diese beiden Komponenten zu trainieren, führen wir ein einheitliches Selbstlabeling-Mechanismus basierend auf optimaler Transporttheorie ein, um hochwertige Pseudo-Labels zu erzeugen, die mehreren plausiblen Priorverteilungen entsprechen. Dies stellt sicher, dass die Clusterzuordnungen der Snippets genauer mit ihren F&B-Labels verknüpft werden können, wodurch die Trennung von Vorder- und Hintergrund-Snippets verbessert wird. Wir evaluieren unsere Methode anhand dreier Benchmarks: THUMOS14, ActivityNet v1.2 und v1.3. Unsere Methode erzielt vielversprechende Ergebnisse bei allen drei Benchmarks und ist dabei erheblich leichtgewichtiger als frühere Ansätze. Der Quellcode ist unter https://github.com/Qinying-Liu/CASE verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp