HyperAIHyperAI

Command Palette

Search for a command to run...

Temporale Faltungssnetze für Aktionensegmentierung und -detektion

Colin Lea Michael D. Flynn René Vidal Austin Reiter Gregory D. Hager

Zusammenfassung

Die Fähigkeit, feingranulare menschliche Aktionen in einem Video zeitlich zu identifizieren und zu segmentieren, ist für Robotik, Überwachung, Bildung und darüber hinaus von entscheidender Bedeutung. Typische Ansätze lösen dieses Problem, indem sie zunächst lokale räumlich-zeitliche Merkmale aus Videobildern extrahieren und diese dann in einen zeitlichen Klassifikator füttern, der hochwertige zeitliche Muster erfasst. Wir stellen eine neue Klasse von zeitlichen Modellen vor, die wir Temporal Convolutional Networks (TCNs) nennen. Diese nutzen eine Hierarchie von zeitlichen Faltungen, um feingranulare Aktionensegmentierung oder -detektion durchzuführen. Unser Encoder-Decoder-TCN verwendet Pooling und Upsampling, um langfristige zeitliche Muster effizient zu erfassen, während unser Dilated-TCN dilatierte Faltungen anwendet. Wir zeigen, dass TCNs in der Lage sind, Aktionenkompositionen, Segmentdauern und langfristige Abhängigkeiten zu erfassen und mehr als ein Mal schneller trainiert werden können als konkurrierende LSTM-basierte rekurrente Neuronale Netze. Wir wenden diese Modelle auf drei anspruchsvolle feingranulare Datensätze an und demonstrieren dabei große Verbesserungen im Vergleich zum aktuellen Stand der Technik.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp