HyperAIHyperAI
vor 12 Tagen

AutoLoc: Schwach beschriftete zeitliche Aktionslokalisierung in ungeschnittenen Videos

{Shih-Fu Chang, Kazuyuki Miyazawa, Hang Gao, Zheng Shou, Lei Zhang}
AutoLoc: Schwach beschriftete zeitliche Aktionslokalisierung in ungeschnittenen Videos
Abstract

Die zeitliche Lokalisierung von Aktionen (Temporal Action Localization, TAL) in ungeschnittenen Videos ist für zahlreiche Anwendungen von großer Bedeutung. Die Annotation von Segment-Level-Referenzwerten (Aktionstyp und zeitliche Grenzen) ist jedoch äußerst kostspielig. Dies hat ein wachsendes Interesse an der Lösung des TAL-Problems unter schwacher Aufsicht geweckt, bei der während des Trainings lediglich Video-Level-Annotationen zur Verfügung stehen. Bisherige state-of-the-art-Methoden im Bereich schwach überwachtes TAL konzentrieren sich jedoch hauptsächlich auf die Generierung einer gut strukturierten Class Activation Sequence (CAS) über die Zeit, wobei zur Lokalisierung der Aktionen lediglich eine einfache Schwellenwert-Bildung auf der CAS angewendet wird. In diesem Artikel stellen wir erstmals einen neuartigen, schwach überwachten TAL-Framework namens AutoLoc vor, der direkt die zeitlichen Grenzen jeder Aktionseinheit vorhersagen kann. Wir führen eine neuartige Outer-Inner-Contrastive (OIC)-Verlustfunktion ein, die es ermöglicht, die benötigte Segment-Level-Aufsicht automatisch zu entdecken, um einen solchen Grenzprädiktor zu trainieren. Unsere Methode erzielt eine deutlich verbesserte Leistung: Bei einem IoU-Schwellenwert von 0,5 steigert sich die mAP auf THUMOS'14 von 13,7 % auf 21,2 % und auf ActivityNet von 7,4 % auf 27,3 %. Besonders ermutigend ist zudem, dass unsere schwach überwachte Methode Ergebnisse erzielt, die mit denen einiger vollständig überwachter Methoden vergleichbar sind.

AutoLoc: Schwach beschriftete zeitliche Aktionslokalisierung in ungeschnittenen Videos | Neueste Forschungsarbeiten | HyperAI