HyperAIHyperAI
vor 2 Monaten

Entwicklung von Space-Time-Neuralen Architekturen für Videos

AJ Piergiovanni; Anelia Angelova; Alexander Toshev; Michael S. Ryoo
Entwicklung von Space-Time-Neuralen Architekturen für Videos
Abstract

Wir präsentieren eine neue Methode zur Identifikation von Video-CNN-Architekturen, die reichhaltige räumlich-zeitliche Informationen in Videos erfassen. Frühere Arbeiten nutzten 3D-Konvolutionen und erzielten vielversprechende Ergebnisse durch manuelles Design von Video-CNN-Architekturen. Hier entwickeln wir einen neuen evolutionären Suchalgorithmus, der automatisch Modelle mit verschiedenen Schichttypen und -kombinationen erkundet, um gleichzeitig Interaktionen zwischen den räumlichen und zeitlichen Aspekten von Videodarstellungen zu lernen. Die Allgemeinheit dieses Algorithmus demonstrieren wir durch seine Anwendung auf zwei Meta-Architekturen, wobei wir neue Architekturen finden, die den manuell entworfenen Architekturen überlegen sind. Darüber hinaus schlagen wir eine neue Komponente vor, die iTGM-Schicht (interactive Temporal Group Multiplication Layer), die ihre Parameter effizienter nutzt und das Lernen von Raum-Zeit-Interaktionen über längere Zeithorizonte ermöglicht. Die iTGM-Schicht wird häufig vom evolutionären Algorithmus bevorzugt und ermöglicht es, kosteneffiziente Netzwerke aufzubauen. Der vorgeschlagene Ansatz entdeckt neue und vielfältige Videoarchitekturen, die bisher unbekannt waren. Wichtiger noch, sie sind sowohl genauer als auch schneller als frühere Modelle und übertreffen die bislang besten Ergebnisse auf mehreren Datensätzen, die wir getestet haben, einschließlich HMDB, Kinetics und Moments in Time. Wir werden den Code und die Modelle als Open Source veröffentlichen, um zukünftige Modellentwicklungen zu fördern.