AutoShot : Un jeu de données de courts vidéos et une détection d’images de pointe

Les vidéos courtes connaissent une popularité explosive et dominent les nouvelles tendances des réseaux sociaux. Les plateformes de vidéos courtes dominantes, telles que Kuaishou (Kwai), TikTok, Instagram Reels et YouTube Shorts, ont profondément transformé la manière dont nous consommons et créons du contenu vidéo. En ce qui concerne la création et la compréhension du contenu vidéo, la détection des frontières de plan (SBD, shot boundary detection) constitue l’un des composants essentiels dans de nombreuses applications. Dans ce travail, nous présentons un nouveau jeu de données public dédié à la détection des frontières de plan dans les vidéos courtes, baptisé SHOT, comprenant 853 vidéos courtes complètes et 11 606 annotations de plans, dont 2 716 annotations de haute qualité réparties sur 200 vidéos de test. En exploitant cette riche ressource de données, nous proposons d’optimiser la conception des modèles pour la SBD vidéo, en menant une recherche architecturale neuronale dans un espace de recherche intégrant diverses architectures avancées de ConvNets 3D et de Transformers. L’approche proposée, nommée AutoShot, atteint des scores F1 supérieurs à ceux des méthodes de l’état de l’art précédentes, dépassant notamment TransNetV2 de 4,2 % lorsqu’elle est entraînée et évaluée sur notre nouveau jeu de données SHOT. En outre, afin de valider la généralisation de l’architecture AutoShot, nous l’évaluons directement sur trois autres jeux de données publics : ClipShots, BBC et RAI, où elle obtient des scores F1 supérieurs aux méthodes de l’état de l’art respectivement de 1,1 %, 0,9 % et 1,2 %. Le jeu de données SHOT ainsi que le code source sont disponibles à l’adresse suivante : https://github.com/wentaozhu/AutoShot.git.