HyperAIHyperAI

Command Palette

Search for a command to run...

RTQ : Repenser la compréhension vidéo-langage à partir des modèles image-texte

Xiao Wang Yaoyu Li Tian Gan Zheng Zhang Jingjing Lv Liqiang Nie

Résumé

Les progrès récents dans la compréhension vidéo-langage s'appuient sur les modèles image-texte, ce qui a permis d'obtenir des résultats prometteurs grâce aux connaissances partagées entre images et vidéos. Toutefois, la compréhension vidéo-langage soulève des défis uniques en raison de la présence de détails sémantiques extrêmement complexes, entraînant une redondance d'information, des dépendances temporelles et une complexité scénique. Les approches actuelles ont seulement partiellement abordé ces problèmes, et notre analyse quantitative indique que certaines de ces méthodes s'accommodent mutuellement. À la lumière de ces constatations, nous proposons un cadre novateur appelé RTQ (Refine, Temporal model, and Query), qui traite simultanément ces défis. Cette approche consiste à affiner l'information redondante au sein des cadres, à modéliser les relations temporelles entre cadres, et à interroger des informations spécifiques à la tâche à partir des vidéos. Notamment, notre modèle obtient des performances remarquables même en l'absence d'une pré-formation vidéo-langage, avec des résultats comparables ou supérieurs à ceux des méthodes pré-entraînées les plus avancées. Le code est disponible à l'adresse suivante : https://github.com/SCZwangxiao/RTQ-MM2023.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp