HyperAIHyperAI

Command Palette

Search for a command to run...

MovieChat : Du Jeton Dense à la Mémoire Éparse pour la Compréhension des Vidéos Longues

Résumé

Récemment, l'intégration de modèles fondamentaux vidéo et de grands modèles linguistiques pour construire un système de compréhension vidéo permet de surmonter les limitations des tâches visuelles prédéfinies spécifiques. Cependant, les systèmes existants ne peuvent traiter que des vidéos comportant très peu d'images. Pour les vidéos longues, la complexité des calculs, le coût en mémoire et la connexion temporelle à long terme posent des défis supplémentaires. En s'appuyant sur le modèle de mémoire d'Atkinson-Shiffrin, en utilisant les jetons (tokens) dans les Transformers comme vecteurs de mémoire combinés avec notre mécanisme de mémoire spécialement conçu, nous proposons MovieChat pour relever ces défis. MovieChat atteint des performances de pointe dans la compréhension des vidéos longues, accompagnées du benchmark MovieChat-1K comprenant 1000 vidéos longues et 14000 annotations manuelles pour valider l'efficacité de notre méthode.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
MovieChat : Du Jeton Dense à la Mémoire Éparse pour la Compréhension des Vidéos Longues | Articles | HyperAI