HyperAIHyperAI
vor 17 Tagen

ASQuery: Ein abfragebasiertes Modell für die Aktionssegmentierung

{Zhao Jian, Xing Junliang, Li Jianshu, Wang Zhecan, Li Liang, Li Zhou, Zheng Wang, Nie Lei, Jin Lei, Gan Ziliang}
Abstract

Bei der Aufgabe der zeitlichen Aktionssegmentierung behandeln herkömmliche Ansätze diese häufig als Frame-weise Klassifikationsaufgabe. In diesem Artikel stellen wir ein einfaches, jedoch wirksames Modell namens ASQuery vor, das zentrale Repräsentationen jeder Aktionskategorie lernt und somit das Klassifikationsproblem in eine Ähnlichkeitsberechnung zwischen kategorie-spezifischen Queries und Frame-Features transformiert. Diese zentralen Repräsentationen werden dynamisch durch unseren Transformer-Decoder-Modul generiert, wodurch sie eine flexiblere und umfassendere Wahrnehmung des gesamten Videos ermöglichen. Zudem führen wir erstmals eine Boundary-Query ein, um die Segmentierungsergebnisse zu verfeinern und so das störende Problem der Übersegmentierung zu mildern. ASQuery zeigt im Vergleich zu aktuellen state-of-the-art-Modellen eine überlegene Leistung und erreicht auf zwei öffentlichen Datensätzen für Aktionssegmentierung, nämlich Breakfast und Assembly101, Verbesserungen von 0,9 % und 4,1 % in den mittleren Metriken. Der Quellcode ist unter https://github.com/zlngan/ASQuery verfügbar.