Command Palette
Search for a command to run...
Schwach beschriftete zeitliche Aktionslokalisierung durch kontrastbasierte Bewertungsnetzwerke
Schwach beschriftete zeitliche Aktionslokalisierung durch kontrastbasierte Bewertungsnetzwerke
Gang Hua Nanning Zheng Zhenxing Niu Zhanning Gao Qilin Zhang Le Wang Ziyi Liu
Zusammenfassung
Schwach beschriftete zeitliche Aktionslokalisierung (WS-TAL) ist eine vielversprechende, jedoch herausfordernde Aufgabe, bei der während des Trainings nur video-level Kategorielabels für Aktionen zur Verfügung stehen. Im Gegensatz zu Methoden, die temporale Grenzmarkierungen in den Trainingsdaten erfordern, könnte WS-TAL automatisch abgerufene Video-Tags als video-level Label nutzen. Allerdings führt diese grobe video-level Supervision zwangsläufig zu Verwirrung, insbesondere in ungeschnittenen Videos mit mehreren Aktionsexemplaren. Um dieser Herausforderung zu begegnen, schlagen wir das Contrast-based Localization EvaluAtioN Network (CleanNet) mit einem neuartigen Aktion-Vorschlags-Evaluator vor, der durch Ausnutzung des zeitlichen Kontrasts in snippet-level Aktion-Klassifizierungsvorhersagen eine Pseudo-Supervision bereitstellt. Im Wesentlichen setzt der neue Aktion-Vorschlags-Evaluator eine zusätzliche zeitliche Kontrast-Beschränkung durch, sodass Aktion-Vorschläge mit hohen Bewertungsscores wahrscheinlicher mit echten Aktionsexemplaren übereinstimmen. Darüber hinaus ist der neue Aktion-Lokalisationsmodul integraler Bestandteil von CleanNet und ermöglicht eine end-to-end-Trainierung. Dies unterscheidet sich von vielen etablierten WS-TAL-Methoden, bei denen die Aktion-Lokalisierung lediglich ein nachgeschalteter Verarbeitungsschritt ist. Experimente auf den Datensätzen THUMOS14 und ActivityNet bestätigen die Wirksamkeit von CleanNet gegenüber bestehenden State-of-the-Art-WS-TAL-Algorithmen.