TransNet: Ein tiefes Netzwerk für die schnelle Erkennung von üblichen Schnittübergängen

Die Ermittlung von Schnittgrenzen (SBD, Shot Boundary Detection) ist ein wichtiger erster Schritt in vielen Videoverarbeitungsanwendungen. In dieser Arbeit wird eine einfache, modulare Architektur eines Faltungsnetzes vorgestellt, die auf dem RAI-Datensatz (RAI dataset) mit einer Inferenzgeschwindigkeit, die deutlich über der Echtzeit liegt, auch auf einem einzelnen mittelmäßigen GPU (Graphics Processing Unit) standesgemäße Ergebnisse erzielt. Das Netzwerk nutzt dilatierte Faltungen und arbeitet ausschließlich mit kleineren, skalierten Bildern. Der Trainingsprozess verwendet zufällig generierte Übergänge unter Verwendung ausgewählter Schnitte aus dem TRECVID IACC.3-Datensatz. Der Code sowie ein ausgewähltes trainiertes Netzwerk werden unter https://github.com/soCzech/TransNet zur Verfügung gestellt.