Effiziente Detektion von Film-Szenen mittels Zustandsraum-Transformern

Die Fähigkeit, zwischen verschiedenen Film-Szenen zu unterscheiden, ist entscheidend für das Verständnis der Handlung eines Films. Die genaue Detektion von Film-Szenen ist jedoch oft herausfordernd, da sie die Fähigkeit erfordert, über sehr lange Filmabschnitte hinweg zu reasoning zu betreiben. Dies unterscheidet sich von den meisten bestehenden Videoerkennungsmodellen, die typischerweise für die Analyse kurzer Videoabschnitte konzipiert sind. In dieser Arbeit wird ein State-Space Transformer-Modell vorgestellt, das effizient Abhängigkeiten in langen Filmvideos erfassen kann, um die Detektion von Film-Szenen präzise zu ermöglichen. Unser Modell, das als TranS4mer bezeichnet wird, basiert auf einem neuartigen S4A-Baustein, der die Stärken von strukturierten State-Space-Sequenz-Modellen (S4) und Self-Attention-Schichten (A) vereint. Gegeben eine Folge von Bildern, die in Film-Shots unterteilt sind (ununterbrochene Perioden, in denen die Kameraposition nicht wechselt), wendet der S4A-Baustein zunächst Self-Attention an, um kurzfristige intra-shot-Abhängigkeiten zu erfassen. Anschließend nutzt der State-Space-Operation im S4A-Baustein langfristige inter-shot-Informationen zur Aggregation. Das finale TranS4mer-Modell, das end-to-end trainiert werden kann, wird durch mehrfaches Stapeln der S4A-Bausteine erzeugt. Unser vorgeschlagenes TranS4mer übertrifft alle vorherigen Ansätze auf drei Datensätzen zur Film-Szenen-Detektion – darunter MovieNet, BBC und OVSD – und ist zudem zweimal so schnell und benötigt drei Mal weniger GPU-Speicher als herkömmliche Transformer-Modelle. Wir werden unseren Code und die Modelle öffentlich bereitstellen.