Schwach beschriftete zeitliche Aktionslokalisierung durch kontrastbasierte Bewertungsnetzwerke

Schwach beschriftete zeitliche Aktionslokalisierung (WS-TAL) ist eine vielversprechende, jedoch herausfordernde Aufgabe, bei der während des Trainings nur video-level Kategorielabels für Aktionen zur Verfügung stehen. Im Gegensatz zu Methoden, die temporale Grenzmarkierungen in den Trainingsdaten erfordern, könnte WS-TAL automatisch abgerufene Video-Tags als video-level Label nutzen. Allerdings führt diese grobe video-level Supervision zwangsläufig zu Verwirrung, insbesondere in ungeschnittenen Videos mit mehreren Aktionsexemplaren. Um dieser Herausforderung zu begegnen, schlagen wir das Contrast-based Localization EvaluAtioN Network (CleanNet) mit einem neuartigen Aktion-Vorschlags-Evaluator vor, der durch Ausnutzung des zeitlichen Kontrasts in snippet-level Aktion-Klassifizierungsvorhersagen eine Pseudo-Supervision bereitstellt. Im Wesentlichen setzt der neue Aktion-Vorschlags-Evaluator eine zusätzliche zeitliche Kontrast-Beschränkung durch, sodass Aktion-Vorschläge mit hohen Bewertungsscores wahrscheinlicher mit echten Aktionsexemplaren übereinstimmen. Darüber hinaus ist der neue Aktion-Lokalisationsmodul integraler Bestandteil von CleanNet und ermöglicht eine end-to-end-Trainierung. Dies unterscheidet sich von vielen etablierten WS-TAL-Methoden, bei denen die Aktion-Lokalisierung lediglich ein nachgeschalteter Verarbeitungsschritt ist. Experimente auf den Datensätzen THUMOS14 und ActivityNet bestätigen die Wirksamkeit von CleanNet gegenüber bestehenden State-of-the-Art-WS-TAL-Algorithmen.