AutoShot: Ein Kurzvideo-Datensatz und die Stand der Technik bei der Shot-Boundary-Erkennung

Kurzform-Videos genießen explosive Beliebtheit und dominieren die aktuellen Trends in sozialen Medien. Führende Plattformen für Kurzvideos, wie Kuaishou (Kwai), TikTok, Instagram Reels und YouTube Shorts, haben die Art und Weise, wie wir Inhalte konsumieren und erstellen, grundlegend verändert. Für die Erstellung und Verstehens von Videoinhalten stellt die Detektion von Szenenübergängen (Shot Boundary Detection, SBD) eine zentrale Komponente in zahlreichen Anwendungsszenarien dar. In dieser Arbeit präsentieren wir einen neuen öffentlich verfügbaren Datensatz für die Szenenübergangsdetektion in Kurzvideos, den wir SHOT nennen. Der Datensatz umfasst 853 vollständige Kurzvideos und 11.606 Szenenübergangsanmerkungen, wobei 2.716 hochwertige Szenenübergänge in 200 Testvideos enthalten sind. Ausgenutzt wird dieser neue Datenschatz, um die Modellarchitektur für die SBD zu optimieren, indem ein neuronaler Architektursuchalgorithmus in einem Suchraum eingesetzt wird, der verschiedene fortschrittliche 3D-ConvNets und Transformers integriert. Unser vorgeschlagener Ansatz, AutoShot genannt, erreicht höhere F1-Scores als bisherige state-of-the-art-Methoden – beispielsweise übertrifft er TransNetV2 um 4,2 %, wenn er auf unserem neu erstellten SHOT-Datensatz abgeleitet und evaluiert wird. Darüber hinaus wird die Verallgemeinerungsfähigkeit der AutoShot-Architektur anhand von drei weiteren öffentlichen Datensätzen – ClipShots, BBC und RAI – validiert. Die F1-Scores von AutoShot übersteigen dabei die der bisher besten Ansätze um jeweils 1,1 %, 0,9 % und 1,2 %. Der SHOT-Datensatz und der zugehörige Quellcode sind unter https://github.com/wentaozhu/AutoShot.git verfügbar.