CDC: Faltungs-Entfaltungs-Netze für präzise zeitliche Aktionserkennung in ungeschnittenen Videos

Die zeitliche Aktionserkennung ist ein wichtiges, jedoch herausforderndes Problem. Gegeben ist ein langes, unverkürztes Video, das mehrere Aktionen und komplexe Hintergrundinhalte enthält. Es ist nicht nur erforderlich, die Kategorien dieser Aktionen zu erkennen, sondern auch deren Start- und Endzeiten zu lokalisieren. Viele state-of-the-art Systeme verwenden segmentbasierte Klassifizierer, um vorgegebene Segmente auszuwählen und zu bewerten. Ein erstrebenswertes Modell sollte jedoch über Segmentebenen hinausgehen und dichte Vorhersagen in feiner zeitlicher Granularität treffen, um präzise zeitliche Grenzen zu bestimmen. Zu diesem Zweck haben wir ein neues Convolutional-De-Convolutional (CDC)-Netzwerk entwickelt, das CDC-Filter auf 3D ConvNets anwendet, die sich als effektiv für die Abstraktion von Aktionssemantik erwiesen haben, aber die zeitliche Länge der Eingangsdaten reduzieren. Der vorgeschlagene CDC-Filter führt gleichzeitig die erforderlichen zeitlichen Upsampling- und räumlichen Downsampling-Vorgänge durch, um Aktionen auf Frame-Ebene vorherzusagen. Er zeichnet sich dadurch aus, dass er sowohl die Aktionssemantik im Raum-Zeit-Kontext als auch die feingranulare zeitliche Dynamik gemeinsam modelliert. Wir trainieren das CDC-Netzwerk effizient in einem end-to-end Verfahren. Unser Modell erzielt nicht nur überlegene Leistungen bei der Erkennung von Aktionen in jedem Frame, sondern verbessert auch erheblich die Genauigkeit der Lokalisierung von zeitlichen Grenzen. Schließlich zeigt das CDC-Netzwerk eine sehr hohe Effizienz mit der Fähigkeit, 500 Frames pro Sekunde auf einem einzelnen GPU-Server zu verarbeiten. Wir werden bald die kamerafertige Version aktualisieren und den Quellcode online veröffentlichen.