ASQuery: Ein abfragebasiertes Modell für die Aktionssegmentierung
{Zhao Jian Xing Junliang Li Jianshu Wang Zhecan Li Liang Li Zhou Zheng Wang Nie Lei Jin Lei Gan Ziliang}
Abstract
Bei der Aufgabe der zeitlichen Aktionssegmentierung behandeln herkömmliche Ansätze diese häufig als Frame-weise Klassifikationsaufgabe. In diesem Artikel stellen wir ein einfaches, jedoch wirksames Modell namens ASQuery vor, das zentrale Repräsentationen jeder Aktionskategorie lernt und somit das Klassifikationsproblem in eine Ähnlichkeitsberechnung zwischen kategorie-spezifischen Queries und Frame-Features transformiert. Diese zentralen Repräsentationen werden dynamisch durch unseren Transformer-Decoder-Modul generiert, wodurch sie eine flexiblere und umfassendere Wahrnehmung des gesamten Videos ermöglichen. Zudem führen wir erstmals eine Boundary-Query ein, um die Segmentierungsergebnisse zu verfeinern und so das störende Problem der Übersegmentierung zu mildern. ASQuery zeigt im Vergleich zu aktuellen state-of-the-art-Modellen eine überlegene Leistung und erreicht auf zwei öffentlichen Datensätzen für Aktionssegmentierung, nämlich Breakfast und Assembly101, Verbesserungen von 0,9 % und 4,1 % in den mittleren Metriken. Der Quellcode ist unter https://github.com/zlngan/ASQuery verfügbar.
Benchmarks
| Benchmark | Methodik | Metriken |
|---|---|---|
| action-segmentation-on-assembly101 | ASQuery | Edit: 35.3 F1@10%: 37.8 F1@25%: 35.6 F1@50%: 29.4 MoF: 40.4 |
| action-segmentation-on-breakfast-1 | ASQuery | Acc: 77.9 Average F1: 74.6 Edit: 78.4 F1@10%: 80.7 F1@25%: 76.5 F1@50%: 66.5 |
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.