HyperAIHyperAI
il y a 2 mois

Pont entre les écartes : Un cadre unifié pour la compréhension vidéo appliqué à la recherche de moments et à la détection de points forts

Xiao, Yicheng ; Luo, Zhuoyan ; Liu, Yong ; Ma, Yue ; Bian, Hengwei ; Ji, Yatai ; Yang, Yujiu ; Li, Xiu
Pont entre les écartes : Un cadre unifié pour la compréhension vidéo appliqué à la recherche de moments et à la détection de points forts
Résumé

La récupération de moments vidéo (MR) et la détection de points forts (HD) ont attiré une attention considérable en raison de la demande croissante d'analyse vidéo. Les approches récentes traitent le MR et le HD comme des problèmes similaires de contextualisation vidéo et les abordent conjointement à l'aide d'une architecture basée sur les transformateurs. Cependant, nous constatons que l'accent mis sur le MR et le HD diffère : l'un nécessite la perception des relations locales, tandis que l'autre privilégie la compréhension des contextes globaux. Par conséquent, l'absence de conception spécifique à chaque tâche entraînera inévitablement des limitations dans l'association des particularités intrinsèques de ces deux tâches. Pour résoudre ce problème, nous proposons un cadre unifié de compréhension vidéo (UVCOM) visant à combler cet écart et à résoudre efficacement le MR et le HD de manière conjointe. En effectuant une intégration progressive des modalités intra et inter à travers plusieurs niveaux de granularité, UVCOM parvient à une compréhension complète lors du traitement d'une vidéo. De plus, nous présentons un apprentissage contrastif multi-aspect pour renforcer la modélisation des relations locales et l'accumulation des connaissances globales grâce à un espace multimodal bien aligné. Des expériences approfondies sur les jeux de données QVHighlights, Charades-STA, TACoS, YouTube Highlights et TVSum démontrent l'efficacité et la pertinence d'UVCOM, qui surpassent les méthodes actuelles d'état de l'art avec une marge notable.

Pont entre les écartes : Un cadre unifié pour la compréhension vidéo appliqué à la recherche de moments et à la détection de points forts | Articles de recherche récents | HyperAI