Lächerlich schnelle Schussgrenzerkennung mit vollkonvolutiven Neuronalen Netzen

Die Ermittlung von Schnittgrenzen (Shot Boundary Detection, SBD) ist ein wichtiger Bestandteil vieler Videoanalyseaufgaben, wie der Aktionserkennung, Videoindexierung, Zusammenfassung und Bearbeitung. Frühere Arbeiten nutzten in der Regel eine Kombination von niedrigstufigen Merkmalen wie Farbhistogramme in Verbindung mit einfachen Modellen wie Support Vector Machines (SVMs). Im Gegensatz dazu schlagen wir vor, die Ermittlung von Schnitten von Anfang bis Ende zu lernen, vom Pixel bis zur endgültigen Schnittgrenze. Für das Training eines solchen Modells stützen wir uns auf unsere Erkenntnis, dass alle Schnittgrenzen generiert werden. Daher erstellen wir einen Datensatz mit einer Million Frames und automatisch generierten Übergängen wie Schnitten, Überblendungen und Verblassen (cuts, dissolves and fades). Um Stundenlange Videos effizient zu analysieren, schlagen wir ein Faltungsneuronales Netzwerk (Convolutional Neural Network, CNN) vor, das vollständig zeitlich faltend ist. Dies ermöglicht es, einen großen zeitlichen Kontext zu nutzen, ohne Frames wiederholt verarbeiten zu müssen. Mit dieser Architektur erzielt unsere Methode Stand-der-Technik-Ergebnisse und läuft dabei mit einer bisher unerreichten Geschwindigkeit von mehr als 120-facher Echtzeitgeschwindigkeit.