CoLA: Schwach beschriftete zeitliche Aktionslokalisierung mit Snippet-Kontrastlern

Schwach beschriftete zeitliche Aktionslokalisierung (Weakly-supervised temporal action localization, WS-TAL) zielt darauf ab, Aktionen in ungeschnittenen Videos allein anhand von Video-Level-Etiketten zu lokalisieren. Die meisten bestehenden Modelle folgen dem „Lokalisierung durch Klassifikation“-Ansatz: Sie identifizieren zeitliche Regionen, die den Video-Level-Klassifikationsentscheidungen am stärksten zuzuschreiben sind. Typischerweise verarbeiten diese Modelle jedes Snippet (bzw. Frame) einzeln und vernachlässigen somit die reichhaltigen zeitlichen Kontextbeziehungen. Hierbei tritt das sogenannte „Single Snippet Cheating“-Problem auf: „schwierige“ Snippets sind zu unspezifisch, um zuverlässig klassifiziert zu werden. In diesem Paper argumentieren wir, dass das Lernen durch Vergleich hilfreich ist, um solche schwierigen Snippets zu identifizieren, und schlagen daher eine Methode namens CoLA (Snippet Contrastive learning to Localize Actions) vor. Konkret stellen wir eine Snippet Contrast (SniCo)-Verlustfunktion vor, die die Repräsentation schwieriger Snippets im Merkmalsraum verfeinert. Dadurch wird das Netzwerk angeregt, präzise zeitliche Grenzen wahrzunehmen und Unterbrechungen im zeitlichen Intervall zu vermeiden. Da frame-level-Anmerkungen nicht verfügbar sind, führen wir einen Algorithmus zur Identifizierung schwieriger Snippets (Hard Snippet Mining) ein. Umfangreiche Analysen bestätigen, dass diese Mining-Strategie effektiv schwierige Snippets erfasst und die SniCo-Verlustfunktion zu informativeren Merkmalsrepräsentationen führt. Ausführliche Experimente zeigen, dass CoLA auf den Datensätzen THUMOS’14 und ActivityNet v1.2 Ergebnisse auf State-of-the-Art-Niveau erzielt. Der CoLA-Code ist öffentlich unter https://github.com/zhang-can/CoLA verfügbar.