HyperAIHyperAI

Command Palette

Search for a command to run...

UMT : Transformateurs multi-modaux unifiés pour la récupération conjointe de moments vidéo et la détection d'extraits marquants

Ye Liu Siyuan Li Yang Wu Chang Wen Chen Ying Shan Xiaohu Qie

Résumé

Trouver des moments pertinents et des extraits marquants dans des vidéos en réponse à des requêtes formulées en langage naturel constitue une nécessité naturelle et hautement précieuse dans l’ère actuelle de l’explosion du contenu vidéo. Néanmoins, la tâche conjointe de récupération de moments et de détection d’extraits constitue un sujet de recherche émergent, bien que ses composantes ainsi que certaines tâches connexes aient déjà fait l’objet d’études prolongées. Dans ce travail, nous proposons la première architecture unifiée, nommée Unified Multi-modal Transformers (UMT), capable de réaliser une optimisation conjointe tout en pouvant être facilement réduite pour résoudre des problèmes individuels. À notre connaissance, il s’agit de la première approche intégrant l’apprentissage multimodal (visuel-audible) aussi bien pour une optimisation conjointe que pour la tâche individuelle de récupération de moments, en traitant cette dernière comme un problème de détection de points clés grâce à un générateur de requêtes novateur et à un décodeur de requêtes. Des comparaisons étendues avec les méthodes existantes ainsi que des études d’ablation menées sur les jeux de données QVHighlights, Charades-STA, YouTube Highlights et TVSum démontrent l’efficacité, la supériorité et la flexibilité de la méthode proposée dans diverses configurations. Le code source et les modèles pré-entraînés sont disponibles à l’adresse suivante : https://github.com/TencentARC/UMT.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp