il y a 8 mois

Résumé

Les grands modèles de langage (LLMs) ont démontré des capacités impressionnantes en compréhension et génération de texte, ce qui a incité des efforts de recherche vers les LLMs vidéo afin de faciliter l'interaction humain-IA au niveau vidéo. Cependant, la manière d'encoder et de comprendre efficacement les vidéos dans les systèmes de dialogue basés sur la vidéo reste un problème à résoudre. Dans cet article, nous examinons une question simple mais peu explorée : est-il possible d'alimenter tous les jetons spatio-temporels dans le LLM, confiant ainsi la tâche de modélisation des séquences vidéo aux LLMs ? De manière surprenante, cette approche simple apporte des améliorations significatives à la compréhension des vidéos. À partir de ces résultats, nous proposons ST-LLM, une base efficace pour les LLMs vidéo avec une modélisation de séquences spatio-temporelles intégrée au sein du LLM. De plus, pour aborder les problèmes de surcharge et de stabilité introduits par les jetons vidéo non compressés dans les LLMs, nous avons développé une stratégie de masquage dynamique avec des objectifs d'entraînement spécifiquement conçus. Pour les vidéos particulièrement longues, nous avons également conçu un module d'entrée global-local afin d'équilibrer l'efficacité et l'efficience. Ainsi, nous exploitons le LLM pour une modélisation spatio-temporelle compétente tout en maintenant l'efficacité et la stabilité. Des résultats expérimentaux exhaustifs attestent de l'efficacité de notre méthode. Grâce à un modèle et un pipeline d'entraînement plus concis, ST-LLM établit un nouveau résultat d'état de l'art sur VideoChatGPT-Bench et MVBench. Les codes sont disponibles à l'adresse suivante : https://github.com/TencentARC/ST-LLM.

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

il y a 8 mois

Vision Par Ordinateur

Tâche

Ruyang Liu Chen Li Haoran Tang YiXiao Ge Ying Shan Ge Li

Résumé

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

il y a 8 mois

Vision Par Ordinateur

Tâche

Ruyang Liu Chen Li Haoran Tang YiXiao Ge Ying Shan Ge Li

Résumé

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

ST-LLM : Les grands modèles de langage sont des apprenants temporels efficaces

Ruyang Liu Chen Li Haoran Tang YiXiao Ge Ying Shan Ge Li

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

ST-LLM : Les grands modèles de langage sont des apprenants temporels efficaces

Ruyang Liu Chen Li Haoran Tang YiXiao Ge Ying Shan Ge Li

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

ST-LLM : Les grands modèles de langage sont des apprenants temporels efficaces

Ruyang Liu Chen Li Haoran Tang YiXiao Ge Ying Shan Ge Li

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters