Schnelle Lokalisierung von Videobildwechseln mit tiefen strukturierten Modellen

Die Erkennung von Video-Szenenwechseln ist ein entscheidender Vorverarbeitungsschritt in der Videoanalyse. Frühere Studien konzentrierten sich darauf, plötzliche Inhaltsänderungen zwischen Frames durch Ähnlichkeitsmessungen zu erkennen, wobei Mehrebenenoperationen häufig verwendet werden, um Übergänge unterschiedlicher Längen zu behandeln. Allerdings sind die Lokalisierung von graduellen Übergängen aufgrund der hohen visuellen Ähnlichkeit benachbarter Frames noch wenig erforscht. Schnitte (Cut shot transitions) sind abrupte semantische Unterbrechungen, während graduelle Szenenwechsel (gradual shot transitions) neben den graduellen semantischen Unterbrechungen auch niedrigstufige räumlich-zeitliche Muster aufweisen, die durch Videoeffekte wie Dissolve verursacht werden. Um dieses Problem anzugehen, schlagen wir ein strukturiertes Netzwerk vor, das in der Lage ist, diese beiden Arten von Szenenwechseln mit gezielten Modellen getrennt zu erkennen. Berücksichtigend die Kompromisse zwischen Geschwindigkeit und Leistung haben wir einen intelligenten Rahmen entworfen. Mit einer TITAN-GPU kann die vorgeschlagene Methode eine 30-fache Echtzeitgeschwindigkeit erreichen. Experimente mit den öffentlichen Datenbanken TRECVID07 und RAI zeigen, dass unsere Methode den Stand der Technik übertreffen kann. Um einen hochleistungsfähigen Szenenwechsel-Detektor zu trainieren, haben wir eine neue Datenbank namens ClipShots beigesteuert, die 128636 schnelle Übergänge und 38120 graduelle Übergänge aus 4039 Online-Videos enthält. ClipShots sammelt absichtlich kurze Videos, um schwierigere Fälle zu berücksichtigen, die durch Handkameraschwankungen, große Objektbewegungen und Verdeckungen verursacht werden.