HyperAIHyperAI
il y a 2 mois

Ajustement de l'Instruction Visuelle

Liu, Haotian ; Li, Chunyuan ; Wu, Qingyang ; Lee, Yong Jae
Ajustement de l'Instruction Visuelle
Résumé

L'ajustement des grands modèles de langage (LLMs) à l'aide de données d'instruction générées par machine a amélioré les capacités hors échantillon sur de nouvelles tâches, mais cette idée est moins explorée dans le domaine multimodal. Dans cet article, nous présentons la première tentative d'utiliser uniquement le langage GPT-4 pour générer des données d'instruction suivie langage-image multimodales. En ajustant ces données générées, nous introduisons LLaVA : Grand Assistant de Langue et de Vision, un grand modèle multimodal formé de bout en bout qui relie un encodeur visuel et un LLM pour une compréhension générale du visuel et du langage. Nos premières expériences montrent que LLaVA démontre des capacités impressionnantes de chat multimodal, parfois exhibant des comportements similaires à ceux de GPT-4 sur des images/instructions inconnues, et obtient un score relatif de 85,1 % comparé à GPT-4 sur un ensemble de données synthétiques d'instruction suivie multimodale. Lorsqu'il est affiné sur Science QA, la synergie entre LLaVA et GPT-4 atteint une nouvelle précision record de 92,53 %. Nous rendons publiquement disponibles les données d'ajustement visuel générées par GPT-4, notre modèle et notre base de code.