PivoTAL: Prior-Driven Supervision für weakly-supervised Temporal Action Localization

Schwach beschriftete zeitliche Aktionslokalisierung (Weakly-supervised Temporal Action Localization, WTAL) zielt darauf ab, Aktionen in ungeschnittenen Videos nur anhand von Video-Level-Labels zu lokalisieren. Die meisten aktuellen Ansätze gehen von einer Lokalisierung durch Klassifikation aus, bei der jeweils jeder Videoframe klassifiziert wird, gefolgt von einer manuell entworfenen Nachverarbeitungspipeline zur Aggregation der pro-Frames-Aktionsvorhersagen zu Aktions-Snippets. Aufgrund dieser Perspektive verfügt das Modell über keinen expliziten Verständnis von Aktionsgrenzen und neigt dazu, sich ausschließlich auf die diskriminativsten Teile des Videos zu konzentrieren, was zu einer unvollständigen Lokalisierung führt. Um dieses Problem zu adressieren, präsentieren wir PivoTAL – Prior-getriebene Supervision für schwach beschriftete zeitliche Aktionslokalisierung –, das WTAL von einer Lokalisierung-durch-Lokalisierung-Perspektive aus angeht, indem es direkt lernt, Aktions-Snippets zu lokalisieren. Dazu nutzt PivoTAL die zugrundeliegenden räumlich-zeitlichen Regelmäßigkeiten in Videos in Form eines aktionspezifischen Szenen-Priors, eines Prior zur Generierung von Aktions-Snippets sowie eines lernbaren Gauß-Priors zur Supervision des lokalisierungsorientierten Trainings. PivoTAL erreicht gegenüber allen bestehenden Methoden erhebliche Verbesserungen (mindestens 3 % avg mAP) auf den Standard-Datensätzen THUMOS-14 und ActivityNet-v1.3.