HyperAIHyperAI
il y a 2 mois

ST-LLM : Les grands modèles de langage sont des apprenants temporels efficaces

Ruyang Liu; Chen Li; Haoran Tang; Yixiao Ge; Ying Shan; Ge Li
ST-LLM : Les grands modèles de langage sont des apprenants temporels efficaces
Résumé

Les grands modèles de langage (LLMs) ont démontré des capacités impressionnantes en compréhension et génération de texte, ce qui a incité des efforts de recherche vers les LLMs vidéo afin de faciliter l'interaction humain-IA au niveau vidéo. Cependant, la manière d'encoder et de comprendre efficacement les vidéos dans les systèmes de dialogue basés sur la vidéo reste un problème à résoudre. Dans cet article, nous examinons une question simple mais peu explorée : est-il possible d'alimenter tous les jetons spatio-temporels dans le LLM, confiant ainsi la tâche de modélisation des séquences vidéo aux LLMs ? De manière surprenante, cette approche simple apporte des améliorations significatives à la compréhension des vidéos. À partir de ces résultats, nous proposons ST-LLM, une base efficace pour les LLMs vidéo avec une modélisation de séquences spatio-temporelles intégrée au sein du LLM. De plus, pour aborder les problèmes de surcharge et de stabilité introduits par les jetons vidéo non compressés dans les LLMs, nous avons développé une stratégie de masquage dynamique avec des objectifs d'entraînement spécifiquement conçus. Pour les vidéos particulièrement longues, nous avons également conçu un module d'entrée global-local afin d'équilibrer l'efficacité et l'efficience. Ainsi, nous exploitons le LLM pour une modélisation spatio-temporelle compétente tout en maintenant l'efficacité et la stabilité. Des résultats expérimentaux exhaustifs attestent de l'efficacité de notre méthode. Grâce à un modèle et un pipeline d'entraînement plus concis, ST-LLM établit un nouveau résultat d'état de l'art sur VideoChatGPT-Bench et MVBench. Les codes sont disponibles à l'adresse suivante : https://github.com/TencentARC/ST-LLM.

ST-LLM : Les grands modèles de langage sont des apprenants temporels efficaces | Articles de recherche récents | HyperAI