HyperAIHyperAI
vor 2 Monaten

AssembleNet: Suche nach mehrströmiger neuronaler Verkoppelung in Video-Architekturen

Ryoo, Michael S. ; Piergiovanni, AJ ; Tan, Mingxing ; Angelova, Anelia
AssembleNet: Suche nach mehrströmiger neuronaler Verkoppelung in Video-Architekturen
Abstract

Das Lernen von Video-Darstellungen ist sowohl algorithmisch als auch rechnerisch eine sehr herausfordernde Aufgabe. Standard-Architekturen für Video-CNNs wurden durch direkte Erweiterung von Architekturen entwickelt, die für das Verständnis von Bildern konzipiert wurden, um die Zeitdimension einzubeziehen, wobei Module wie 3D-Faltungen verwendet werden, oder durch Anwendung eines Zweistrom-Designs, um sowohl Erscheinungsbild als auch Bewegung in Videos zu erfassen. Wir interpretieren ein Video-CNN als eine Sammlung von mehrströmen Faltungsbloecken, die miteinander verbunden sind, und schlagen einen Ansatz vor, der automatisch neuronale Architekturen mit besserer Vernetzung und räumlich-zeitlichen Interaktionen für das Verständnis von Videos findet. Dies geschieht durch Evolution einer Population übermäßig vernetzter Architekturen unter Anleitung des Lernens der Verbindungsgewichte. Es wird nach Architekturen gesucht, die Darstellungen verschiedener Eingabetypen (d.h., RGB und optischer Fluss) auf mehreren zeitlichen Auflösungen kombinieren, was es ermöglicht, dass verschiedene Informationsarten oder -quellen miteinander interagieren. Unsere Methode, bezeichnet als AssembleNet, übertrifft frühere Ansätze bei öffentlichen Videodatensätzen und erreicht in manchen Fällen deutliche Verbesserungen. Wir erzielen 58,6 % mAP auf Charades und 34,27 % Genauigkeit auf Moments-in-Time.