HyperAIHyperAI
vor 17 Tagen

Verfeinerung der Aktionssegmentierung mit hierarchischen Videodarstellungen

{Dongheui Lee, Hyemin Ahn}
Verfeinerung der Aktionssegmentierung mit hierarchischen Videodarstellungen
Abstract

In diesem Paper stellen wir den Hierarchical Action Segmentation Refiner (HASR) vor, der die temporale Aktionssegmentierungsergebnisse verschiedener Modelle durch eine hierarchische Verarbeitung des Gesamtzusammenhangs eines gegebenen Videos verfeinern kann. Wenn ein Backbone-Modell zur Aktionssegmentierung abschätzt, wie ein gegebenes Video segmentiert werden kann, extrahiert unser Modell segmentbasierte Repräsentationen auf Basis von framebasierten Merkmalen und gewinnt eine video-basierte Repräsentation auf Grundlage der segmentbasierten Repräsentationen. Aufgrund dieser hierarchischen Repräsentationen kann unser Modell den Gesamtzusammenhang des gesamten Videos berücksichtigen und vorhersagen, wie segmentale Etiketten, die im Kontext nicht passen, korrigiert werden sollten. Der HASR kann nahtlos in verschiedene Aktionssegmentierungsmodelle (MS-TCN, SSTDA, ASRF) integriert werden und die Leistung von state-of-the-art-Modellen auf drei anspruchsvollen Datensätzen (GTEA, 50Salads und Breakfast) verbessern. Beispielsweise steigt die Segment-Edit-Score in dem Datensatz 50Salads von 67,9 % auf 77,4 % (MS-TCN), von 75,8 % auf 77,3 % (SSTDA) und von 79,3 % auf 81,0 % (ASRF). Zudem kann unser Modell die Segmentierungsergebnisse eines bisher unbekannten Backbone-Modells verfeinern, das während der Trainingsphase von HASR nicht berücksichtigt wurde. Diese Generalisierungsfähigkeit macht HASR zu einem effektiven Werkzeug zur Verbesserung bestehender Ansätze für die temporale Aktionssegmentierung. Der Quellcode ist unter https://github.com/cotton-ahn/HASR_iccv2021 verfügbar.