Effiziente zweistufige Netze für die zeitliche Aktionssegmentierung
{Shenglan Liu YuHan Wang Li Xu Jie Zhu Lianyu Hu Lin Feng Kaiyuan Liu Zhuben Dong Yunheng Li}
Abstract
Aufgrund von Grenzambiguitäten und Problemen der Übersegmentierung bleibt die Identifizierung aller Frames in langen, ungeschnittenen Videos weiterhin herausfordernd. Um diese Herausforderungen anzugehen, präsentieren wir das effiziente Zwei-Schritt-Netzwerk (Efficient Two-Step Network, ETSN) mit zwei Komponenten. Der erste Schritt von ETSN ist das Efficient Temporal Series Pyramid Network (ETSPNet), das sowohl lokale als auch globale frame-basierte Merkmale erfasst und präzise Vorhersagen der Segmentationsgrenzen liefert. Der zweite Schritt ist ein neuartiger, unsupervisierter Ansatz namens Local Burr Suppression (LBS), der die Übersegmentierungsfehler erheblich reduziert. Unsere empirischen Evaluierungen auf Benchmarks wie 50Salads, GTEA und Breakfast zeigen, dass ETSN die derzeitigen state-of-the-art-Methoden deutlich übertrifft.
Benchmarks
| Benchmark | Methodik | Metriken |
|---|---|---|
| action-segmentation-on-50-salads-1 | ETSN | Acc: 82.0 Edit: 78.8 F1@10%: 85.2 F1@25%: 83.9 F1@50%: 75.4 |
| action-segmentation-on-breakfast-1 | ETSN | Acc: 67.8 Average F1: 66.4 Edit: 70.3 F1@10%: 74.0 F1@25%: 69.0 F1@50%: 56.2 |
| action-segmentation-on-gtea-1 | ETSN | Acc: 78.2 Edit: 86.2 F1@10%: 91.1 F1@25%: 90.0 F1@50%: 77.9 |
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.