HyperAIHyperAI
il y a 12 jours

Intégrer le schéma temporel pour la synthèse vidéo non supervisée via un mécanisme d'attention

{Viet H. Vo, Bang Q. Vo}
Résumé

Dans ce travail, nous proposons un nouveau schéma non supervisé nommé SegSum, conçu pour la synthèse vidéo par la création de résumés vidéo (video skims). La plupart des méthodes actuelles consistent à entraîner un résumeur afin qu’il attribue des scores d’importance à chaque trame vidéo, lesquels sont ensuite agrégés pour calculer des scores correspondant aux segments vidéo générés par des méthodes telles que le Kernel Temporal Segmentation (KTS). Toutefois, cette approche limite l’accès du résumeur à des informations cruciales nécessaires à la génération du résumé, en particulier les relations spatio-temporelles présentes dans les segments vidéo. La méthode proposée intègre les informations relatives aux segments obtenues via KTS dans le processus d’apprentissage du résumeur, en s’appuyant sur une architecture à attention concentrée dans les modèles d’apprentissage profond. Dans nos expérimentations, nous avons évalué de manière exhaustive notre méthode sur plusieurs jeux de données et diverses architectures pour la synthèse vidéo non supervisée. Grâce à l’intégration d’un module d’attention concentrée, nous avons obtenu des scores F1 optimaux sur des benchmarks établis, atteignant 54 % sur le jeu de données SumMe et 62 % sur TVSum. De plus, même avec un réseau régresseur simple, SegSum démontre une performance compétitive, produisant des résumés qui se rapprochent étroitement des annotations humaines.

Intégrer le schéma temporel pour la synthèse vidéo non supervisée via un mécanisme d'attention | Articles de recherche récents | HyperAI