Zu effizienten grob-zu-fein Netzwerken für die Aktions- und Gestenerkennung

Zustandsbestimmende Ansätze zur aktions- und gestenbasierten Videoerkennung setzen häufig zwei zentrale Konzepte ein: Erstens verwenden sie Multistream-Verarbeitung, und zweitens setzen sie auf Ensembles von Faltungsnetzwerken. Wir verbessern und erweitern beide Aspekte. Erstens erzielen wir systematisch erweiterte Rezeptivfelder für die komplementäre Merkmalsextraktion durch eine grob-zu-fein-Zerlegung der Eingabebilder entlang der räumlichen und zeitlichen Dimensionen und konzentrieren sich adaptiv auf die Schulung wichtiger Merkmalspfade mittels einer neu parametrisierten vollständig verbundenen Schicht. Zweitens entwickeln wir ein „nur bei Bedarf einsetzen“-Schema mit einer „rohen-Ausgangsstrategie“, das eine selektive Nutzung der rechenintensiven Hochauflösungsverarbeitung datenabhängig ermöglicht und somit die Genauigkeit beibehält, während die Rechenkosten reduziert werden. Unser C2F-Lernansatz baut Ensembles von Netzwerken auf, die auf den Datensätzen Something-Something V1, V2 und Jester sowohl in Bezug auf reduzierte Rechenkosten als auch auf verbesserte Genauigkeit die meisten konkurrierenden Methoden übertrumpfen, und gleichzeitig auch auf dem Kinetics-400-Datensatz wettbewerbsfähig bleiben. Einzigartig ist, dass unsere C2F-Ensemble-Netzwerke unter unterschiedlichen Rechenbudget-Beschränkungen operieren können.