Temporale Aktionserkennung mit strukturierten Segmentnetzwerken

Die Erkennung von Aktionen in unbeschnittenen Videos ist eine wichtige, jedoch herausfordernde Aufgabe. In dieser Arbeit stellen wir das strukturierte Segmentnetzwerk (SSN) vor, ein neues Framework, das die zeitliche Struktur jeder Aktion durch eine strukturierte zeitliche Pyramide modelliert. An der Spitze der Pyramide führen wir ein zerlegtes diskriminatives Modell ein, das aus zwei Klassifizierern besteht: einer für die Klassifikation von Aktionen und einer für die Bestimmung der Vollständigkeit. Dies ermöglicht es dem Framework, positive Vorschläge effektiv vom Hintergrund oder unvollständigen Vorschlägen zu unterscheiden, was sowohl eine genaue Erkennung als auch eine präzise Lokalisierung ermöglicht. Diese Komponenten werden in ein einheitliches Netzwerk integriert, das effizient in einem end-to-end-Verfahren trainiert werden kann. Zudem wurde ein einfaches, aber effektives Schema zur Generierung hochwertiger Aktionenvorschläge entwickelt, das als zeitliche Aktionsgruppierung (Temporal Actionness Grouping, TAG) bezeichnet wird. Bei den beiden anspruchsvollen Benchmarks THUMOS14 und ActivityNet übertrifft unsere Methode erheblich die bisher besten Verfahren und zeigt dabei eine überlegene Genauigkeit sowie starke Anpassungsfähigkeit bei der Bearbeitung von Aktionen mit unterschiedlichen zeitlichen Strukturen.