HyperAIHyperAI

Command Palette

Search for a command to run...

MovieChat+ : Mémoire Éparse Sensible aux Questions pour la Réponse à des Questions sur des Vidéos Longues

Enxin Song Wenhao Chai Tian Ye Jenq-Neng Hwang Xi Li Gaoang Wang

Résumé

Récemment, l’intégration de modèles fondamentaux vidéo et de modèles linguistiques massifs pour construire un système de compréhension vidéo permet de surmonter les limites des tâches visuelles prédéfinies et spécifiques. Toutefois, les méthodes existantes recourent soit à des modules spatio-temporels complexes, soit à des modèles perceptifs supplémentaires pour extraire des caractéristiques temporelles, et se limitent à de courtes vidéos. Dans le cas de vidéos longues, la complexité computationnelle et la charge mémoire liées aux connexions temporelles à long terme augmentent considérablement, posant ainsi des défis supplémentaires. En s’appuyant sur le modèle mémoire d’Atkinson-Shiffrin, en utilisant les tokens des Transformers comme vecteurs de mémoire en combinaison avec un mécanisme de mémoire spécialement conçu, nous proposons MovieChat afin de relever ces défis. Nous améliorons les modèles pré-entraînés multimodaux de grande taille pour la compréhension de vidéos longues, sans intégrer de modules temporels entraînables supplémentaires, en adoptant une approche zero-shot. MovieChat atteint des performances de pointe dans la compréhension des vidéos longues, accompagnée du benchmark MovieChat-1K, comprenant 1 000 vidéos longues, 2 000 étiquettes de repérage temporel et 14 000 annotations manuelles, permettant de valider l’efficacité de notre méthode. Le code ainsi que le jeu de données sont accessibles via le lien suivant : https://github.com/rese1f/MovieChat.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp