Command Palette
Search for a command to run...
Unglaublich schnelle Szenenranddetektion mit vollständig konvolutionellen neuronalen Netzwerken
Unglaublich schnelle Szenenranddetektion mit vollständig konvolutionellen neuronalen Netzwerken
Gygli Michael
Zusammenfassung
Die Erkennung von Szenenübergängen (Shot Boundary Detection, SBD) ist eine zentrale Komponente vieler Videoanalyseaufgaben, wie beispielsweise der Aktionserkennung, der Video-Indexierung, der Zusammenfassung und der Bearbeitung. Frühere Ansätze nutzten typischerweise eine Kombination aus niedrigstufigen Merkmalen wie Farbhistogrammen in Verbindung mit einfachen Modellen wie SVMs. Stattdessen schlagen wir vor, die Szenenübergangserkennung end-to-end zu lernen – von den Pixeln bis hin zu den finalen Szenenübergängen. Zur Schulung eines solchen Modells stützen wir uns auf unsere Erkenntnis, dass alle Szenenübergänge generiert werden können. Daher erstellen wir eine Datensammlung mit einer Million Frames und automatisch generierten Übergängen wie Schnitten, Dissolves und Fade-outs. Um Stunden von Videos effizient analysieren zu können, schlagen wir ein vollständig zeitlich konvolutionales neuronales Netzwerk (Convolutional Neural Network, CNN) vor, das es ermöglicht, einen großen zeitlichen Kontext zu nutzen, ohne dass Frames wiederholt verarbeitet werden müssen. Mit dieser Architektur erreicht unsere Methode den Stand der Technik, während sie mit einer bisher unerreichten Geschwindigkeit von über 120× Echtzeit läuft.