HyperAIHyperAI

Command Palette

Search for a command to run...

TS-LLaVA : Construction de jetons visuels par le biais de miniatures et d'échantillonnage pour des modèles linguistiques vidéo sans entraînement

Tingyu Qu Mingxiao Li Tinne Tuytelaars Marie-Francine Moens

Résumé

Les récentes avancées dans les grands modèles de langage multimodaux (LLMs) ont montré un grand succès dans la compréhension des contenus multimodaux. Pour les tâches de compréhension vidéo, la construction de modèles de langage vidéo basés sur l'entraînement est difficile en raison de la rareté de données vidéo-texte de haute qualité et bien curatées. En revanche, les données image-texte appariées sont beaucoup plus faciles à obtenir, et il existe une forte similarité entre les images et les vidéos. Par conséquent, l'extension des modèles de langage d'image pour les tâches de compréhension vidéo représente une alternative intéressante. Le développement de stratégies efficaces pour compresser les jetons visuels provenant de plusieurs images est une voie prometteuse pour tirer parti des puissants modèles d'image pré-entraînés. Dans ce travail, nous explorons les limites des stratégies de compression existantes pour construire un modèle de langage vidéo sans entraînement. Nos résultats conduisent à notre méthode TS-LLaVA, qui construit des jetons visuels grâce à une stratégie Thumbnail-and-Sampling (Miniature-et-Échantillonnage). Étant donné une vidéo, nous sélectionnons quelques images équidistantes parmi toutes les images d'entrée pour construire une image miniature comme indice visuel détaillé, complétée par des jetons visuels échantillonnés provenant de toutes les images d'entrée. Notre méthode établit un nouveau niveau de performance parmi les modèles de langage vidéo sans entraînement sur diverses基准 (benchmarks). Notamment, notre modèle 34B surpasse GPT-4V sur le benchmark MVBench et atteint des performances comparables à celles du modèle de langage vidéo basé sur l'entraînement Video-LLaMA2 (72B) sur le benchmark MLVU exigeant. Le code est disponible à l'adresse https://github.com/tingyu215/TS-LLaVA.Note: I've used "基准" in parentheses to indicate that it's the original Chinese term for "benchmarks," as it was mistakenly included in the text to be translated. However, the correct French term is "benchmarks." Here is the corrected version:Les récentes avancées dans les grands modèles de langage multimodaux (LLMs) ont montré un grand succès dans la compréhension des contenus multimodaux. Pour les tâches de compréhension vidéo, la construction de modèles de langage vidéo basés sur l'entraînement est difficile en raison de la rareté de données vidéo-texte de haute qualité et bien curatées. En revanche, les données image-texte appariées sont beaucoup plus faciles à obtenir, et il existe une forte similarité entre les images et les vidéos. Par conséquent, l'extension des modèles de langage d'image pour les tâches de compréhension vidéo représente une alternative intéressante. Le développement de stratégies efficaces pour compresser les jetons visuels provenant de plusieurs images est une voie prometteuse pour tirer parti des puissants modèles d'image pré-entraînés. Dans ce travail, nous explorons les limites des stratégies de compression existantes pour construire un modèle de langage vidéo sans entraînement. Nos résultats conduisent à notre méthode TS-LLaVA, qui construit des jetons visuels grâce à une stratégie Thumbnail-and-Sampling (Miniature-et-Échantillonnage). Étant donné une vidéo, nous sélectionnons quelques images équidistantes parmi toutes les images d'entrée pour construire une image miniature comme indice visuel détaillé, complétée par des jetons visuels échantillonnés provenant de toutes les images d'entrée. Notre méthode établit un nouveau niveau de performance parmi les modèles de langage vidéo sans entraînement sur divers benchmarks. Notamment, notre modèle 34B surpasse GPT-4V sur le benchmark MVBench et atteint des performances comparables à celles du modèle Video-LLaMA2 (72B), basé sur l'entraînement, sur le benchmark MLVU exigeant. Le code est disponible à l'adresse https://github.com/tingyu215/TS-LLaVA.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
TS-LLaVA : Construction de jetons visuels par le biais de miniatures et d'échantillonnage pour des modèles linguistiques vidéo sans entraînement | Articles | HyperAI