HyperAIHyperAI

Command Palette

Search for a command to run...

End-to-End semi-supervised Learning für die Video-Aktionserkennung

Akash Kumar Yogesh Singh Rawat

Zusammenfassung

In dieser Arbeit konzentrieren wir uns auf das semisupervisierte Lernen zur Erkennung von Aktionen in Videos, das sowohl etikettierte als auch unetikettierte Daten nutzt. Wir schlagen einen einfachen, end-to-end basierten Ansatz vor, der die unetikettierten Daten effektiv ausnutzt. Die Erkennung von Aktionen in Videos erfordert sowohl die Vorhersage der Aktionsklasse als auch eine räumlich-zeitliche Lokalisierung der Aktionen. Daher untersuchen wir zwei Arten von Restriktionen: Klassifikationskonsistenz und räumlich-zeitliche Konsistenz. Die Präsenz dominanter Hintergründe und statischer Bereiche in einem Video macht es schwierig, die räumlich-zeitliche Konsistenz für die Aktionserkennung zu nutzen. Um dies anzugehen, schlagen wir zwei neue Regularisierungsrestriktionen für die räumlich-zeitliche Konsistenz vor: 1) zeitliche Kohärenz und 2) Gradientenglättung. Beide Aspekte nutzen die zeitliche Kontinuität von Aktionen in Videos und haben sich als effektiv erwiesen, um unetikettierte Videos für die Aktionserkennung zu nutzen. Wir demonstrieren die Effektivität des vorgeschlagenen Ansatzes anhand zweier unterschiedlicher Benchmark-Datensätze zur Aktionserkennung, nämlich UCF101-24 und JHMDB-21. Darüber hinaus zeigen wir auch die Effektivität des vorgeschlagenen Ansatzes für die Segmentierung von Objekten in Videos am Datensatz Youtube-VOS, was seine Generalisierungsfähigkeit unterstreicht. Der vorgeschlagene Ansatz erreicht wettbewerbsfähige Leistungen durch die Nutzung lediglich 20% der Annotationen auf UCF101-24 im Vergleich zu jüngsten vollständig supervisierten Methoden. Auf UCF101-24 verbessert er den Score um +8,9% bei 0,5 f-mAP und um +11% bei v-mAP im Vergleich zum supervisierten Ansatz.注释:- "semisupervised learning" 翻译为 "semisupervisiertes Lernen"- "action detection" 翻译为 "Aktionserkennung"- "classification consistency" 翻译为 "Klassifikationskonsistenz"- "spatio-temporal consistency" 翻译为 "räumlich-zeitliche Konsistenz"- "temporal coherency" 翻译为 "zeitliche Kohärenz"- "gradient smoothness" 翻译为 "Gradientenglättung"- "f-mAP" 和 "v-mAP" 保留原样,因为它们是特定的技术指标- "UCF101-24", "JHMDB-21", 和 "Youtube-VOS" 保留原样,因为它们是特定的数据集名称


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
End-to-End semi-supervised Learning für die Video-Aktionserkennung | Paper | HyperAI