Command Palette
Search for a command to run...
ASQuery: Ein abfragebasiertes Modell für die Aktionssegmentierung
ASQuery: Ein abfragebasiertes Modell für die Aktionssegmentierung
Zhao Jian Xing Junliang Li Jianshu Wang Zhecan Li Liang Li Zhou Zheng Wang Nie Lei Jin Lei Gan Ziliang
Zusammenfassung
Bei der Aufgabe der zeitlichen Aktionssegmentierung behandeln herkömmliche Ansätze diese häufig als Frame-weise Klassifikationsaufgabe. In diesem Artikel stellen wir ein einfaches, jedoch wirksames Modell namens ASQuery vor, das zentrale Repräsentationen jeder Aktionskategorie lernt und somit das Klassifikationsproblem in eine Ähnlichkeitsberechnung zwischen kategorie-spezifischen Queries und Frame-Features transformiert. Diese zentralen Repräsentationen werden dynamisch durch unseren Transformer-Decoder-Modul generiert, wodurch sie eine flexiblere und umfassendere Wahrnehmung des gesamten Videos ermöglichen. Zudem führen wir erstmals eine Boundary-Query ein, um die Segmentierungsergebnisse zu verfeinern und so das störende Problem der Übersegmentierung zu mildern. ASQuery zeigt im Vergleich zu aktuellen state-of-the-art-Modellen eine überlegene Leistung und erreicht auf zwei öffentlichen Datensätzen für Aktionssegmentierung, nämlich Breakfast und Assembly101, Verbesserungen von 0,9 % und 4,1 % in den mittleren Metriken. Der Quellcode ist unter https://github.com/zlngan/ASQuery verfügbar.