Hierarchische Vektorkuantisierung für die unüberwachte Aktionensegmentierung

In dieser Arbeit befassen wir uns mit der unüberwachten zeitlichen Aktionensegmentierung, die eine Reihe langer, unbeschnittener Videos in semantisch bedeutsame Segmente unterteilt, die über alle Videos konsistent sind. Während aktuelle Ansätze für diese Aufgabe Darstellungslernen und Clustering in einem einzigen Schritt kombinieren, können sie große Variationen innerhalb zeitlicher Segmente derselben Klasse nicht adäquat behandeln. Um diese Einschränkung zu überwinden, schlagen wir eine neue Methode vor, die hierarchische Vektorquantisierung (HVQ), welche aus zwei aufeinanderfolgenden Vektorquantisierungsmodulen besteht. Dies führt zu einer hierarchischen Clusterung, bei der zusätzliche Subcluster die Variationen innerhalb eines Clusters abdecken. Wir zeigen, dass unser Ansatz die Verteilung der Segmentlängen viel besser als der Stand der Technik erfasst. Zu diesem Zweck führen wir ein neues Metrik basierend auf dem Jensen-Shannon-Abstand (JSD) für die unüberwachte zeitliche Aktionensegmentierung ein. Wir evaluieren unseren Ansatz anhand dreier öffentlicher Datensätze: Breakfast, YouTube Instructional und IKEA ASM. Unser Ansatz übertreffen den Stand der Technik hinsichtlich des F1-Scores, des Recall und des JSD.