Verringerung von Übersegmentierungsfehlern durch die Erkennung von Aktionsgrenzen

Wir schlagen einen effektiven Rahmen für die Aufgabe der zeitlichen Aktionssegmentierung vor, nämlich den Action Segment Refinement Framework (ASRF). Unsere Modellarchitektur besteht aus einem langfristigen Merkmalsextraktor sowie zwei Zweigen: dem Action Segmentation Branch (ASB) und dem Boundary Regression Branch (BRB). Der langfristige Merkmalsextraktor liefert den beiden Zweigen gemeinsame Merkmale mit einem weiten zeitlichen Empfindungsfeld. Der ASB klassifiziert Videoframes in Aktionsklassen, während der BRB die Wahrscheinlichkeiten für Aktionsgrenzen regressiert. Die von dem BRB vorhergesagten Aktionsgrenzen verfeinern die Ausgabe des ASB, was zu einer signifikanten Leistungssteigerung führt. Unsere Beiträge sind dreifach: (i) Wir stellen einen Rahmen für die zeitliche Aktionssegmentierung, den ASRF, vor, der die Aufgabe in eine frameweise Aktionsklassifikation und eine Regressionsaufgabe für Aktionsgrenzen zerlegt. Unser Rahmen verfeinert die framebasierten Hypothesen der Aktionsklassen mithilfe der vorhergesagten Aktionsgrenzen. (ii) Wir schlagen eine Verlustfunktion zur Glättung des Übergangs von Aktionswahrscheinlichkeiten vor und analysieren Kombinationen verschiedener Verlustfunktionen für die zeitliche Aktionssegmentierung. (iii) Unser Rahmen erreicht eine bessere Leistung als aktuell beste Methoden auf drei anspruchsvollen Datensätzen, wobei die Segmental-Edit-Distanz um bis zu 13,7 % und die Segmental-F1-Score um bis zu 16,1 % verbessert wird. Der Quellcode wird in Kürze öffentlich verfügbar sein.