Vista-LLaMA : Réduction de l'hallucination dans les modèles linguistiques vidéo grâce à une distance égale aux tokens visuels

Les avancées récentes dans les grands modèles vidéo-langage ont montré des résultats prometteurs en compréhension vidéo. Les approches actuelles convertissent simplement la vidéo en jetons linguistiques et utilisent des grands modèles linguistiques pour des tâches multimodales. Toutefois, cette méthode entraîne fréquemment la génération de contenu non pertinent, communément appelé « hallucination », notamment lorsque la longueur du texte augmente et que l’impact de la vidéo diminue. Pour résoudre ce problème, nous proposons Vista-LLaMA, un cadre novateur qui maintient une distance constante entre tous les jetons visuels et n’importe quel jeton linguistique, indépendamment de la longueur du texte généré. Vista-LLaMA omet l’encodage de position relative lors du calcul des poids d’attention entre jetons visuels et jetons textuels, tout en conservant l’encodage de position pour les jetons textuels. Cette approche renforce l’effet des jetons visuels sur la génération textuelle, en particulier lorsque la distance relative entre les jetons visuels et textuels est plus grande. Le mécanisme d’attention proposé réduit significativement la probabilité de produire du texte non pertinent par rapport au contenu vidéo. En outre, nous introduisons un projecteur visuel séquentiel qui projette chaque trame vidéo actuelle dans l’espace des jetons linguistiques en s’appuyant sur la trame précédente. Cette méthode capture non seulement les relations temporelles à l’intérieur de la vidéo, mais permet également de représenter l’intégralité de la vidéo avec un nombre réduit de jetons visuels. Notre approche surpasse largement diverses méthodes antérieures (par exemple, Video-ChatGPT, MovieChat) sur quatre défis récents de réponse à des questions ouvertes sur vidéo. Nous atteignons une précision de 60,7 sur NExT-QA en zero-shot et de 60,5 sur MSRVTT-QA en zero-shot, établissant ainsi un nouveau record d’état de l’art. Ce projet est disponible à l’adresse suivante : https://jinxxian.github.io/Vista-LLaMA.