HyperAIHyperAI

Command Palette

Search for a command to run...

SPHINX-X : Échelle des données et des paramètres pour une famille de modèles linguistiques à grande échelle multimodaux

Résumé

Nous proposons SPHINX-X, une série étendue de modèles linguistiques à grande échelle multimodaux (MLLM) développée à partir de SPHINX. Pour améliorer l'architecture et l'efficacité d'entraînement, nous adaptons le cadre SPHINX en éliminant les encodeurs visuels redondants, en sautant les sous-images entièrement complétées grâce à des jetons d'ignoration, et en simplifiant l'entraînement multi-étapes en un paradigme unifié en une seule étape. Afin de tirer pleinement parti du potentiel des MLLM, nous constituons un ensemble de données multimodal et multidomaine complet, couvrant des ressources publiques dans les tâches linguistiques, visuelles et vision-langage. Nous enrichissons par ailleurs cette collection avec nos propres jeux de données spécialisés en reconnaissance optique de caractères (OCR) et en ensemble de marques (Set-of-Mark), ce qui augmente davantage la diversité et la généralisation. En entraînant plusieurs modèles de base, notamment TinyLlama1.1B, InternLM2-7B, LLaMA2-13B et Mixtral8x7B, nous obtenons une gamme de MLLM variant en taille de paramètres et en capacités multilingues. Les évaluations approfondies révèlent une forte corrélation entre les performances multimodales et les tailles des données et des paramètres. Le code et les modèles sont disponibles à l'adresse suivante : https://github.com/Alpha-VLLM/LLaMA2-Accessory


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp