il y a 2 mois

SPHINX : Le Mélange Conjoints des Poids, des Tâches et des Plongements Visuels pour les Modèles Linguistiques Multimodaux de Grande Taille

Lin, Ziyi ; Liu, Chris ; Zhang, Renrui ; Gao, Peng ; Qiu, Longtian ; Xiao, Han ; Qiu, Han ; Lin, Chen ; Shao, Wenqi ; Chen, Keqin ; Han, Jiaming ; Huang, Siyuan ; Zhang, Yichi ; He, Xuming ; Li, Hongsheng ; Qiao, Yu

Voir les détails de l'article

SPHINX : Le Mélange Conjoints des Poids, des Tâches et des Plongements Visuels pour les Modèles Linguistiques Multimodaux de Grande Taille

Résumé

Nous présentons SPHINX, un modèle de langage multimodal polyvalent (MLLM) avec un mélange conjoint des poids du modèle, des tâches d'ajustement et des plongements visuels. Tout d'abord, pour une meilleure alignement vision-langue, nous dégelons le grand modèle de langage (LLM) pendant la pré-formation et introduisons une stratégie de mélange des poids entre les LLM formés sur des données réelles et synthétiques. En intégrant directement les poids provenant de deux domaines, le LLM mélangé peut efficacement incorporer une sémantique variée avec une robustesse favorable. Ensuite, pour doter le modèle de capacités polyvalentes, nous mélangeons diverses tâches pour l'ajustement conjoint des instructions visuelles et concevons des instructions spécifiques à chaque tâche afin d'éviter les conflits inter-tâches. Outre la réponse aux questions visuelles de base, nous incluons des tâches plus complexes telles que la compréhension au niveau régional, l'ancrage de légendes, la détection de mise en page de documents et l'estimation de poses humaines, contribuant ainsi à une amélioration mutuelle dans différents scénarios. De plus, nous proposons d'extraire des plongements visuels complets à partir de différentes architectures de réseau, paradigmes de pré-formation et granularités d'information, offrant aux modèles de langage des représentations d'image plus robustes. Sur la base du mélange conjoint que nous proposons, SPHINX montre des capacités supérieures de compréhension multimodale dans une large gamme d'applications. Par ailleurs, nous proposons également une stratégie efficace visant à mieux capturer les apparitions fines-grainées d'images haute résolution. Avec un mélange d'échelles différentes et de sous-images haute résolution, SPHINX atteint des performances exceptionnelles en analyse visuelle et raisonnement sur les bancs d'évaluation existants. Nous espérons que notre travail apportera un éclairage précieux à l'exploration du mélange conjoint dans les futures recherches sur les MLLM. Le code est disponible sur https://github.com/Alpha-VLLM/LLaMA2-Accessory.