HyperAIHyperAI
vor 16 Tagen

SF-Net: Single-Frame Supervision für die zeitliche Aktionslokalisierung

Fan Ma, Linchao Zhu, Yi Yang, Shengxin Zha, Gourab Kundu, Matt Feiszli, Zheng Shou
SF-Net: Single-Frame Supervision für die zeitliche Aktionslokalisierung
Abstract

In diesem Paper untersuchen wir eine Zwischenform der Supervision, nämlich die Einzelbild-Supervision, für die zeitliche Aktionslokalisierung (Temporal Action Localization, TAL). Um die Einzelbild-Supervision zu erhalten, werden die Annotatoren gebeten, innerhalb des zeitlichen Fensters einer Aktion lediglich ein einzelnes Bild zu identifizieren. Dies kann die Arbeitskosten erheblich senken im Vergleich zur vollständigen Supervision, die die Annotierung der Aktionsgrenzen erfordert. Im Gegensatz zur schwachen Supervision, die lediglich ein videobezogenes Label annotiert, integriert die Einzelbild-Supervision zusätzliche zeitliche Aktionsinformationen, während gleichzeitig die Annotierungskosten niedrig gehalten werden. Um die Einzelbild-Supervision optimal auszunutzen, schlagen wir ein einheitliches System namens SF-Net vor. Zunächst schlagen wir vor, für jedes Video-Bild eine Actionness-Score vorherzusagen. Zusammen mit einem typischen Kategoriewert kann dieser Actionness-Score umfassende Informationen über das Auftreten einer potenziellen Aktion liefern und bei der Feinabstimmung der zeitlichen Grenzen während der Inferenz unterstützen. Zweitens extrahieren wir sogenannte Pseudo-Aktions- und Pseudo-Hintergrundbilder basierend auf den Einzelbild-Annotationen. Pseudo-Aktionsbilder identifizieren wir durch adaptives Erweitern jedes annotierten Einzelbildes auf benachbarte, kontextreiche Bilder, während wir Pseudo-Hintergrundbilder aus allen nicht annotierten Bildern über mehrere Videos hinweg gewinnen. Zusammen mit den ground-truth-beschrifteten Bildern werden diese pseudo-beschrifteten Bilder anschließend zur Weitertrainierung des Klassifikators verwendet. In umfangreichen Experimenten auf den Datensätzen THUMOS14, GTEA und BEOID erreicht SF-Net eine signifikante Verbesserung gegenüber aktuellen state-of-the-art-Methoden mit schwacher Supervision sowohl in Bezug auf die Segment-Lokalisierung als auch die Einzelbild-Lokalisierung. Insbesondere erzielt SF-Net Ergebnisse, die mit denen seines vollständig überwachten Gegenstücks vergleichbar sind, welches jedoch deutlich ressourcenintensivere Annotationen erfordert. Der Quellcode ist unter https://github.com/Flowerfan/SF-Net verfügbar.

SF-Net: Single-Frame Supervision für die zeitliche Aktionslokalisierung | Neueste Forschungsarbeiten | HyperAI