Ressourceneffiziente 3D-Faltungsneuronale Netze

Kürzlich haben sich Faltungsneuronale Netze mit 3D-Kernen (3D CNNs) aufgrund ihrer überlegenen Fähigkeit zur Extraktion von räumlich-zeitlichen Merkmalen innerhalb von Videobildern im Vergleich zu 2D CNNs in der Computer-Vision-Gemeinschaft großer Beliebtheit erfreut. Obwohl es in letzter Zeit große Fortschritte bei der Entwicklung ressourceneffizienter 2D-CNN-Architekturen unter Berücksichtigung von Speicher- und Energiebudget gegeben hat, gibt es kaum vergleichbare ressourceneffiziente Architekturen für 3D CNNs. In dieser Arbeit haben wir verschiedene bekannte ressourceneffiziente 2D-CNNs in 3D-CNNs umgewandelt und ihre Leistung auf drei wichtigen Benchmarks hinsichtlich der Klassifikationsgenauigkeit für verschiedene Komplexitätsstufen evaluiert. Wir haben Experimente an folgenden Datensätzen durchgeführt: (1) dem Kinetics-600-Datensatz, um ihre Lernkapazität zu untersuchen, (2) dem Jester-Datensatz, um ihre Fähigkeit zur Erfassung von Bewegungsmustern zu prüfen, und (3) dem UCF-101-Datensatz, um die Anwendbarkeit des Transfer-Learnings zu testen. Die Laufzeit-Leistung jedes Modells wurde auf einer einzelnen Titan XP GPU und einem Jetson TX2 eingebetteten System evaluiert. Die Ergebnisse dieser Studie zeigen, dass diese Modelle für verschiedene Arten von realen Anwendungen genutzt werden können, da sie eine Echtzeit-Leistung mit erheblichen Genauigkeiten und Speicherverbrauch bieten. Unsere Analyse verschiedener Komplexitätsstufen zeigt, dass ressourceneffiziente 3D-CNNs nicht zu flach oder schmal gestaltet werden sollten, um die Komplexität zu reduzieren. Der Code und die vorab trainierten Modelle, die in dieser Arbeit verwendet wurden, sind öffentlich verfügbar.