Maximierung und Wiederherstellung: Aktionssegmentierung durch Dilatationstransfer und zeitliche Rekonstruktion
{Sungho Jo Sejoon Huh Daekyum Kim Junyong Park}

Abstract
Die Action-Segmentation zielt darauf ab, Videos in Abschnitte unterschiedlicher Aktionen zu unterteilen. In jüngster Forschung liegt der Fokus auf der Bewältigung langreichweitiger Abhängigkeiten in langen, ungeschnittenen Videos, wobei jedoch weiterhin Probleme wie Übersegmentierung und Leistungssättigung aufgrund steigender Modellkomplexität bestehen. In dieser Arbeit werden diese Herausforderungen durch eine Divide-and-Conquer-Strategie angegangen, die zunächst die frameweise Klassifikationsgenauigkeit des Modells maximiert und anschließend Übersegmentierungsfehler reduziert. Diese Strategie wird durch das Dilation Passing and Reconstruction Network (DPRN) umgesetzt, das aus zwei Komponenten besteht: dem Dilation Passing Network, das hauptsächlich die Genauigkeit durch die Propagation von Informationen unterschiedlicher Dilatationen erhöht, und dem Temporal Reconstruction Network, das Übersegmentierungsfehler durch zeitliche Kodierung und Dekodierung der Ausgabefeatures des Dilation Passing Networks verringert. Zudem wird eine gewichtete zeitliche mittlere quadratische Fehlerverlustfunktion vorgeschlagen, die die Übersegmentierung weiter reduziert. Durch Evaluierungen auf den Datensätzen 50Salads, GTEA und Breakfast zeigen wir, dass unser Modell im Vergleich zu bestehenden State-of-the-Art-Modellen signifikante Ergebnisse erzielt.
Benchmarks
| Benchmark | Methodik | Metriken |
|---|---|---|
| action-segmentation-on-50-salads-1 | DPRN | Acc: 87.2 Edit: 82.0 F1@10%: 87.8 F1@25%: 86.3 F1@50%: 79.4 |
| action-segmentation-on-breakfast-1 | DPRN | Acc: 71.7 Average F1: 67.9 Edit: 75.1 F1@10%: 75.6 F1@25%: 70.5 F1@50%: 57.6 |
| action-segmentation-on-gtea-1 | DPRN | Acc: 82.0 Edit: 90.9 F1@10%: 92.9 F1@25%: 92.0 F1@50%: 82.9 |
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.