HyperAIHyperAI

Command Palette

Search for a command to run...

ST-LLM : Les grands modèles de langage sont des apprenants temporels efficaces

Ruyang Liu Chen Li Haoran Tang YiXiao Ge Ying Shan Ge Li

Résumé

Les grands modèles de langage (LLMs) ont démontré des capacités impressionnantes en compréhension et génération de texte, ce qui a incité des efforts de recherche vers les LLMs vidéo afin de faciliter l'interaction humain-IA au niveau vidéo. Cependant, la manière d'encoder et de comprendre efficacement les vidéos dans les systèmes de dialogue basés sur la vidéo reste un problème à résoudre. Dans cet article, nous examinons une question simple mais peu explorée : est-il possible d'alimenter tous les jetons spatio-temporels dans le LLM, confiant ainsi la tâche de modélisation des séquences vidéo aux LLMs ? De manière surprenante, cette approche simple apporte des améliorations significatives à la compréhension des vidéos. À partir de ces résultats, nous proposons ST-LLM, une base efficace pour les LLMs vidéo avec une modélisation de séquences spatio-temporelles intégrée au sein du LLM. De plus, pour aborder les problèmes de surcharge et de stabilité introduits par les jetons vidéo non compressés dans les LLMs, nous avons développé une stratégie de masquage dynamique avec des objectifs d'entraînement spécifiquement conçus. Pour les vidéos particulièrement longues, nous avons également conçu un module d'entrée global-local afin d'équilibrer l'efficacité et l'efficience. Ainsi, nous exploitons le LLM pour une modélisation spatio-temporelle compétente tout en maintenant l'efficacité et la stabilité. Des résultats expérimentaux exhaustifs attestent de l'efficacité de notre méthode. Grâce à un modèle et un pipeline d'entraînement plus concis, ST-LLM établit un nouveau résultat d'état de l'art sur VideoChatGPT-Bench et MVBench. Les codes sont disponibles à l'adresse suivante : https://github.com/TencentARC/ST-LLM.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
ST-LLM : Les grands modèles de langage sont des apprenants temporels efficaces | Articles | HyperAI