HyperAIHyperAI

Command Palette

Search for a command to run...

CDC: Faltungs-Entfaltungs-Netze für präzise zeitliche Aktionserkennung in ungeschnittenen Videos

Zheng Shou†, Jonathan Chan†, Alireza Zareian†, Kazuyuki Miyazawa‡, and Shih-Fu Chang†

Zusammenfassung

Die zeitliche Aktionserkennung ist ein wichtiges, jedoch herausforderndes Problem. Gegeben ist ein langes, unverkürztes Video, das mehrere Aktionen und komplexe Hintergrundinhalte enthält. Es ist nicht nur erforderlich, die Kategorien dieser Aktionen zu erkennen, sondern auch deren Start- und Endzeiten zu lokalisieren. Viele state-of-the-art Systeme verwenden segmentbasierte Klassifizierer, um vorgegebene Segmente auszuwählen und zu bewerten. Ein erstrebenswertes Modell sollte jedoch über Segmentebenen hinausgehen und dichte Vorhersagen in feiner zeitlicher Granularität treffen, um präzise zeitliche Grenzen zu bestimmen. Zu diesem Zweck haben wir ein neues Convolutional-De-Convolutional (CDC)-Netzwerk entwickelt, das CDC-Filter auf 3D ConvNets anwendet, die sich als effektiv für die Abstraktion von Aktionssemantik erwiesen haben, aber die zeitliche Länge der Eingangsdaten reduzieren. Der vorgeschlagene CDC-Filter führt gleichzeitig die erforderlichen zeitlichen Upsampling- und räumlichen Downsampling-Vorgänge durch, um Aktionen auf Frame-Ebene vorherzusagen. Er zeichnet sich dadurch aus, dass er sowohl die Aktionssemantik im Raum-Zeit-Kontext als auch die feingranulare zeitliche Dynamik gemeinsam modelliert. Wir trainieren das CDC-Netzwerk effizient in einem end-to-end Verfahren. Unser Modell erzielt nicht nur überlegene Leistungen bei der Erkennung von Aktionen in jedem Frame, sondern verbessert auch erheblich die Genauigkeit der Lokalisierung von zeitlichen Grenzen. Schließlich zeigt das CDC-Netzwerk eine sehr hohe Effizienz mit der Fähigkeit, 500 Frames pro Sekunde auf einem einzelnen GPU-Server zu verarbeiten. Wir werden bald die kamerafertige Version aktualisieren und den Quellcode online veröffentlichen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
CDC: Faltungs-Entfaltungs-Netze für präzise zeitliche Aktionserkennung in ungeschnittenen Videos | Paper | HyperAI