Maximierung und Wiederherstellung: Aktionssegmentierung durch Dilatationstransfer und zeitliche Rekonstruktion

Die Action-Segmentation zielt darauf ab, Videos in Abschnitte unterschiedlicher Aktionen zu unterteilen. In jüngster Forschung liegt der Fokus auf der Bewältigung langreichweitiger Abhängigkeiten in langen, ungeschnittenen Videos, wobei jedoch weiterhin Probleme wie Übersegmentierung und Leistungssättigung aufgrund steigender Modellkomplexität bestehen. In dieser Arbeit werden diese Herausforderungen durch eine Divide-and-Conquer-Strategie angegangen, die zunächst die frameweise Klassifikationsgenauigkeit des Modells maximiert und anschließend Übersegmentierungsfehler reduziert. Diese Strategie wird durch das Dilation Passing and Reconstruction Network (DPRN) umgesetzt, das aus zwei Komponenten besteht: dem Dilation Passing Network, das hauptsächlich die Genauigkeit durch die Propagation von Informationen unterschiedlicher Dilatationen erhöht, und dem Temporal Reconstruction Network, das Übersegmentierungsfehler durch zeitliche Kodierung und Dekodierung der Ausgabefeatures des Dilation Passing Networks verringert. Zudem wird eine gewichtete zeitliche mittlere quadratische Fehlerverlustfunktion vorgeschlagen, die die Übersegmentierung weiter reduziert. Durch Evaluierungen auf den Datensätzen 50Salads, GTEA und Breakfast zeigen wir, dass unser Modell im Vergleich zu bestehenden State-of-the-Art-Modellen signifikante Ergebnisse erzielt.