Von Neuem zur Trennung von Vorder- und Hintergrund in schwach überwachter zeitlicher Aktionslokalisation: Ein clusterbasierter Ansatz

Die schwach überwachte zeitliche Aktionserkennung (Weakly-supervised Temporal Action Localization) strebt danach, Aktionen in Videos auf Videoebene nur mit Aktionslabels zu lokalisieren. Bestehende Methoden setzen hauptsächlich auf einen Klassifizierungsansatz zur Lokalisierung, der die Snippet-Level-Vorhersage mit einem Video-Klassifikationsverlust optimiert. Allerdings führt diese Formulierung zu einer Diskrepanz zwischen Klassifizierung und Detektion, was zu ungenauen Trennungen von Vorder- und Hintergrund-Snippets (Foreground and Background, F&B) führt. Um dieses Problem zu mildern, schlagen wir vor, die zugrunde liegende Struktur der Snippets durch unsupervisiertes Snippet-Clustering zu erforschen, anstatt stark auf den Video-Klassifikationsverlust zu bauen. Insbesondere entwickeln wir einen neuen clustergestützten Algorithmus zur Trennung von Vorder- und Hintergrund-Snippets (F&B). Dieser besteht aus zwei Kernkomponenten: einer Snippet-Clustering-Komponente, die die Snippets in mehrere latente Cluster gruppiert, und einer Clusterklassifikationskomponente, die die Cluster weiter als Vorder- oder Hintergrund klassifiziert. Da es keine Ground-Truth-Labels gibt, um diese beiden Komponenten zu trainieren, führen wir ein einheitliches Selbstlabeling-Mechanismus basierend auf optimaler Transporttheorie ein, um hochwertige Pseudo-Labels zu erzeugen, die mehreren plausiblen Priorverteilungen entsprechen. Dies stellt sicher, dass die Clusterzuordnungen der Snippets genauer mit ihren F&B-Labels verknüpft werden können, wodurch die Trennung von Vorder- und Hintergrund-Snippets verbessert wird. Wir evaluieren unsere Methode anhand dreier Benchmarks: THUMOS14, ActivityNet v1.2 und v1.3. Unsere Methode erzielt vielversprechende Ergebnisse bei allen drei Benchmarks und ist dabei erheblich leichtgewichtiger als frühere Ansätze. Der Quellcode ist unter https://github.com/Qinying-Liu/CASE verfügbar.