HyperAIHyperAI
vor 2 Monaten

End-to-End semi-supervised Learning für die Video-Aktionserkennung

Kumar, Akash ; Rawat, Yogesh Singh
End-to-End semi-supervised Learning für die Video-Aktionserkennung
Abstract

In dieser Arbeit konzentrieren wir uns auf das semisupervisierte Lernen zur Erkennung von Aktionen in Videos, das sowohl etikettierte als auch unetikettierte Daten nutzt. Wir schlagen einen einfachen, end-to-end basierten Ansatz vor, der die unetikettierten Daten effektiv ausnutzt. Die Erkennung von Aktionen in Videos erfordert sowohl die Vorhersage der Aktionsklasse als auch eine räumlich-zeitliche Lokalisierung der Aktionen. Daher untersuchen wir zwei Arten von Restriktionen: Klassifikationskonsistenz und räumlich-zeitliche Konsistenz. Die Präsenz dominanter Hintergründe und statischer Bereiche in einem Video macht es schwierig, die räumlich-zeitliche Konsistenz für die Aktionserkennung zu nutzen. Um dies anzugehen, schlagen wir zwei neue Regularisierungsrestriktionen für die räumlich-zeitliche Konsistenz vor: 1) zeitliche Kohärenz und 2) Gradientenglättung. Beide Aspekte nutzen die zeitliche Kontinuität von Aktionen in Videos und haben sich als effektiv erwiesen, um unetikettierte Videos für die Aktionserkennung zu nutzen. Wir demonstrieren die Effektivität des vorgeschlagenen Ansatzes anhand zweier unterschiedlicher Benchmark-Datensätze zur Aktionserkennung, nämlich UCF101-24 und JHMDB-21. Darüber hinaus zeigen wir auch die Effektivität des vorgeschlagenen Ansatzes für die Segmentierung von Objekten in Videos am Datensatz Youtube-VOS, was seine Generalisierungsfähigkeit unterstreicht. Der vorgeschlagene Ansatz erreicht wettbewerbsfähige Leistungen durch die Nutzung lediglich 20% der Annotationen auf UCF101-24 im Vergleich zu jüngsten vollständig supervisierten Methoden. Auf UCF101-24 verbessert er den Score um +8,9% bei 0,5 f-mAP und um +11% bei v-mAP im Vergleich zum supervisierten Ansatz.注释:- "semisupervised learning" 翻译为 "semisupervisiertes Lernen"- "action detection" 翻译为 "Aktionserkennung"- "classification consistency" 翻译为 "Klassifikationskonsistenz"- "spatio-temporal consistency" 翻译为 "räumlich-zeitliche Konsistenz"- "temporal coherency" 翻译为 "zeitliche Kohärenz"- "gradient smoothness" 翻译为 "Gradientenglättung"- "f-mAP" 和 "v-mAP" 保留原样,因为它们是特定的技术指标- "UCF101-24", "JHMDB-21", 和 "Youtube-VOS" 保留原样,因为它们是特定的数据集名称

End-to-End semi-supervised Learning für die Video-Aktionserkennung | Neueste Forschungsarbeiten | HyperAI