Zeitlich gewichtete hierarchische Clustering für unüberwachte Aktionensegmentierung

Aktionssegmentierung bezieht sich auf die Inferenz von Grenzen semantisch konsistenter visueller Konzepte in Videos und ist eine wichtige Voraussetzung für viele Video-Verarbeitungsaufgaben. Für diese und andere Video-Verarbeitungsaufgaben haben überwachte Ansätze ermutigende Ergebnisse erzielt, erfordern aber eine hohe Menge detaillierter Frame-Level-Annotierungen. Wir präsentieren einen vollautomatischen und unüberwachten Ansatz zur Segmentierung von Aktionen in einem Video, der keine Trainingsdaten benötigt. Unser Vorschlag ist ein effektiver, zeitlich gewichteter hierarchischer Clusteralgorithmus, der semantisch konsistente Frames des Videos gruppieren kann. Unsere Hauptbefund ist, dass die Darstellung eines Videos durch einen 1-nächsten-Nachbarn-Graphen unter Berücksichtigung der zeitlichen Fortschritts ausreicht, um semantisch und zeitlich konsistente Framecluster zu bilden, wobei jeder Cluster möglicherweise eine bestimmte Aktion im Video darstellt. Zudem legen wir starke unüberwachte Baseline-Methoden für die Aktionssegmentierung fest und zeigen signifikante Leistungsverbesserungen gegenüber veröffentlichten unüberwachten Methoden auf fünf anspruchsvollen Aktionssegmentierungsdatensätzen. Unser Code ist unter https://github.com/ssarfraz/FINCH-Clustering/tree/master/TW-FINCH verfügbar.