Großmaßstäbliche, schnelle und genaue Ermittlung von Schnittgrenzen durch raum-zeitliche Faltungsneuronale Netze

Die Erkennung von Schnittgrenzen (SBD) ist ein wichtiger Vorverarbeitungsschritt bei der Video-Manipulation. Dabei wird jeder Framesegment als scharfer, gradueller oder ohne Übergang klassifiziert. Aktuelle SBD-Techniken analysieren manuell erstellte Merkmale und versuchen, sowohl die Erkennungspräzision als auch die Verarbeitungsgeschwindigkeit zu optimieren. Allerdings verhindern die aufwendigen Berechnungen des optischen Flusses dies. Um dieses Ziel zu erreichen, stellen wir eine SBD-Technik vor, die auf räumlich-zeitlichen Faltungsneuronalen Netzen (CNN) basiert. Da aktuelle Datensätze nicht groß genug sind, um ein präzises SBD-CNN zu trainieren, präsentieren wir einen neuen Datensatz, der mehr als 3,5 Millionen Frames von scharfen und graduellen Übergängen enthält. Die Übergänge werden synthetisch mithilfe von Bildkompositionmodellen generiert. Unser Datensatz enthält zusätzlich 70.000 Frames wichtiger harter Negativbeispiele ohne Übergang. Wir führen die bislang größte Evaluierung für eine SBD-Algorithmen durch, sowohl auf realen als auch auf synthetischen Daten, die insgesamt mehr als 4,85 Millionen Frames umfassen. Im Vergleich zum Stand der Technik erzielen wir bessere Ergebnisse bei der Erkennung gradueller Überblendungen (dissolve), wettbewerbsfähige Leistungen bei der Erkennung scharfer Schnitte und signifikante Verbesserungen bei Wischeffekten (wipes). Zudem sind wir bis zu 11-mal schneller als der Stand der Technik.