Effiziente zweistufige Netze für die zeitliche Aktionssegmentierung
Aufgrund von Grenzambiguitäten und Problemen der Übersegmentierung bleibt die Identifizierung aller Frames in langen, ungeschnittenen Videos weiterhin herausfordernd. Um diese Herausforderungen anzugehen, präsentieren wir das effiziente Zwei-Schritt-Netzwerk (Efficient Two-Step Network, ETSN) mit zwei Komponenten. Der erste Schritt von ETSN ist das Efficient Temporal Series Pyramid Network (ETSPNet), das sowohl lokale als auch globale frame-basierte Merkmale erfasst und präzise Vorhersagen der Segmentationsgrenzen liefert. Der zweite Schritt ist ein neuartiger, unsupervisierter Ansatz namens Local Burr Suppression (LBS), der die Übersegmentierungsfehler erheblich reduziert. Unsere empirischen Evaluierungen auf Benchmarks wie 50Salads, GTEA und Breakfast zeigen, dass ETSN die derzeitigen state-of-the-art-Methoden deutlich übertrifft.