HyperAIHyperAI
il y a 9 jours

SPHINX-X : Échelle des données et des paramètres pour une famille de modèles linguistiques à grande échelle multimodaux

Dongyang Liu, Renrui Zhang, Longtian Qiu, Siyuan Huang, Weifeng Lin, Shitian Zhao, Shijie Geng, Ziyi Lin, Peng Jin, Kaipeng Zhang, Wenqi Shao, Chao Xu, Conghui He, Junjun He, Hao Shao, Pan Lu, Hongsheng Li, Yu Qiao, Peng Gao
SPHINX-X : Échelle des données et des paramètres pour une famille de modèles linguistiques à grande échelle multimodaux
Résumé

Nous proposons SPHINX-X, une série étendue de modèles linguistiques à grande échelle multimodaux (MLLM) développée à partir de SPHINX. Pour améliorer l'architecture et l'efficacité d'entraînement, nous adaptons le cadre SPHINX en éliminant les encodeurs visuels redondants, en sautant les sous-images entièrement complétées grâce à des jetons d'ignoration, et en simplifiant l'entraînement multi-étapes en un paradigme unifié en une seule étape. Afin de tirer pleinement parti du potentiel des MLLM, nous constituons un ensemble de données multimodal et multidomaine complet, couvrant des ressources publiques dans les tâches linguistiques, visuelles et vision-langage. Nous enrichissons par ailleurs cette collection avec nos propres jeux de données spécialisés en reconnaissance optique de caractères (OCR) et en ensemble de marques (Set-of-Mark), ce qui augmente davantage la diversité et la généralisation. En entraînant plusieurs modèles de base, notamment TinyLlama1.1B, InternLM2-7B, LLaMA2-13B et Mixtral8x7B, nous obtenons une gamme de MLLM variant en taille de paramètres et en capacités multilingues. Les évaluations approfondies révèlent une forte corrélation entre les performances multimodales et les tailles des données et des paramètres. Le code et les modèles sont disponibles à l'adresse suivante : https://github.com/Alpha-VLLM/LLaMA2-Accessory

SPHINX-X : Échelle des données et des paramètres pour une famille de modèles linguistiques à grande échelle multimodaux | Articles de recherche récents | HyperAI