HyperAIHyperAI
vor 2 Monaten

Unüberwachte Aktionensegmentierung durch gemeinsames Repräsentationslernen und Online-Clustering

Sateesh Kumar; Sanjay Haresh; Awais Ahmed; Andrey Konin; M. Zeeshan Zia; Quoc-Huy Tran
Unüberwachte Aktionensegmentierung durch gemeinsames Repräsentationslernen und Online-Clustering
Abstract

Wir präsentieren einen neuen Ansatz für die unüberwachte Aktivitätssegmentierung, der Video-Bilderrahmen-Clustering als Vorwandsaufgabe verwendet und gleichzeitig Repräsentationsspezialisierung und Online-Clustering durchführt. Dies steht im Gegensatz zu früheren Arbeiten, bei denen Repräsentationsspezialisierung und Clustering in der Regel sequenziell durchgeführt wurden. Wir nutzen zeitliche Informationen in Videos, indem wir temporale Optimaltransport verwenden. Insbesondere integrieren wir einen zeitlichen Regularisierungs-Term, der die zeitliche Ordnung der Aktivität beibehält, in das Standard-Optimaltransportmodul zur Berechnung von Pseudo-Label-Clusterzuweisungen. Das Modul für den temporalen Optimaltransport ermöglicht es unserem Ansatz, effektive Repräsentationen für die unüberwachte Aktivitätssegmentierung zu erlernen. Darüber hinaus erfordern vorherige Methoden das Speichern gelernter Merkmale für den gesamten Datensatz, bevor sie diese in einem Offline-Prozess clustern; unser Ansatz hingegen verarbeitet eine Mini-Batch nach der anderen in Echtzeit. Ausführliche Evaluierungen auf drei öffentlichen Datensätzen, nämlich 50-Salads, YouTube Instructions und Breakfast sowie auf unserem eigenen Datensatz Desktop Assembly zeigen, dass unser Ansatz vergleichbar oder besser als frühere Methoden performt, obwohl er deutlich weniger Speicheranforderungen hat. Unser Code und unser Datensatz sind auf unserer Forschungswebsite verfügbar: https://retrocausal.ai/research/请注意,这里有一些术语的翻译:- "unsupervised activity segmentation" 翻译为 "unüberwachte Aktivitätssegmentierung"- "video frame clustering" 翻译为 "Video-Bilderrahmen-Clustering"- "representation learning" 翻译为 "Repräsentationsspezialisierung" (虽然通常也翻译为 "Repräsentationslernen", 但在这里为了强调学习特定的表示,使用了 "Repräsentationsspezialisierung")- "temporal optimal transport" 翻译为 "temporale Optimaltransport"- "pseudo-label cluster assignments" 翻译为 "Pseudo-Label-Clusterzuweisungen"如果需要进一步调整或有其他术语偏好,请告知。

Unüberwachte Aktionensegmentierung durch gemeinsames Repräsentationslernen und Online-Clustering | Neueste Forschungsarbeiten | HyperAI