HyperAIHyperAI
vor 15 Tagen

Schwach beschriftete zeitliche Aktionslokalisierung durch progressives ergänzendes Lernen

Jia-Run Du, Jia-Chang Feng, Kun-Yu Lin, Fa-Ting Hong, Xiao-Ming Wu, Zhongang Qi, Ying Shan, Wei-Shi Zheng
Schwach beschriftete zeitliche Aktionslokalisierung durch progressives ergänzendes Lernen
Abstract

Schwach beschriftete zeitliche Aktionslokalisation (Weakly Supervised Temporal Action Localization, WSTAL) zielt darauf ab, Aktionsinstanzen in langen, ungeschnittenen Videos zu lokalisieren und zu klassifizieren, wobei lediglich Video-Level-Kategorielabels zur Verfügung stehen. Aufgrund des Fehlens von Snippet-Level-Supervision zur Kennzeichnung von Aktionsgrenzen weisen herkömmliche Methoden meist sogenannte Pseudolabels für unbeschriftete Snippets zu. Da jedoch Aktionsinstanzen verschiedener Kategorien visuell ähnlich sein können, ist es nicht trivial, für ein Snippet genau die jeweils eine zutreffende Aktionskategorie zu bestimmen. Falsche Pseudolabels beeinträchtigen die Lokalisationsleistung erheblich. Um dieses Problem anzugehen, schlagen wir eine neuartige Methode aus der Perspektive der Kategorien-Auschlussstrategie vor, die wir Progressive Complementary Learning (ProCL) nennen, welche die Snippet-Level-Supervision schrittweise verbessert. Unsere Methode wird inspiriert durch die Erkenntnis, dass Video-Level-Label genau die Kategorien angeben, zu denen alle Snippets mit Sicherheit nicht gehören – ein Aspekt, der in früheren Arbeiten bisher ignoriert wurde. Dementsprechend schließen wir zunächst diese sicher nicht existierenden Kategorien mittels eines komplementären Lernverlustes aus. Anschließend führen wir eine hintergrundbewusste Pseudokomplementärlabelung ein, um für Snippets mit geringerer Ambiguität zusätzliche Kategorien auszuschließen. Für die verbleibenden ambigen Snippets versuchen wir, die Unsicherheit zu verringern, indem wir zwischen vordergrundbasierten Aktionen und Hintergrund unterscheiden. Umfangreiche experimentelle Ergebnisse zeigen, dass unsere Methode auf zwei etablierten Benchmarks, nämlich THUMOS14 und ActivityNet1.3, neue SOTA-Leistungen erzielt.

Schwach beschriftete zeitliche Aktionslokalisierung durch progressives ergänzendes Lernen | Neueste Forschungsarbeiten | HyperAI