Command Palette
Search for a command to run...
Großflächige, schnelle und genaue Detektion von Szenenübergängen mittels räumlich-zeitlicher Faltungsneuronaler Netze
Großflächige, schnelle und genaue Detektion von Szenenübergängen mittels räumlich-zeitlicher Faltungsneuronaler Netze
Zusammenfassung
Die Erkennung von Schnittgrenzen (Shot Boundary Detection, SBD) ist ein wesentlicher Vorverarbeitungsschritt bei der Video-Manipulation. Dabei wird jeder Frame-Bereich entweder als scharfer, langsamer oder kein Übergang klassifiziert. Aktuelle SBD-Verfahren analysieren handgefertigte Merkmale und bemühen sich, sowohl die Erkennungsgenauigkeit als auch die Verarbeitungsgeschwindigkeit zu optimieren. Allerdings behindern die rechenintensiven Berechnungen des optischen Flusses diese Anstrengungen. Um dieses Ziel zu erreichen, präsentieren wir eine SBD-Methode basierend auf räumlich-zeitlichen Faltungsneuralen Netzen (Convolutional Neural Networks, CNN). Da bestehende Datensätze nicht groß genug sind, um ein präzises SBD-CNN zu trainieren, stellen wir einen neuen Datensatz vor, der mehr als 3,5 Millionen Frames von scharfen und langsamen Übergängen enthält. Diese Übergänge werden synthetisch mithilfe von Bildzusammensetzungsmodellen generiert. Unser Datensatz umfasst zudem zusätzliche 70.000 Frames wichtiger, schwieriger negativer Beispiele ohne Übergänge. Wir führen die bislang umfangreichste Evaluation eines SBD-Algorithmus durch, sowohl auf echten als auch auf synthetischen Daten, wobei mehr als 4,85 Millionen Frames berücksichtigt werden. Im Vergleich zum Stand der Technik übertrifft unsere Methode die Erkennung langsamer Übergänge (Dissolve), erzielt konkurrenzfähige Ergebnisse bei der Erkennung scharfer Übergänge und zeigt eine signifikante Verbesserung bei der Erkennung von Wischübergängen (Wipes). Zudem sind wir bis zu elfmal schneller als der aktuelle Stand der Technik.