LLaVA-Plus : Apprendre à Utiliser des Outils pour Créer des Agents Multimodaux

LLaVA-Plus est un assistant multimodal polyvalent qui étend les capacités des grands modèles multimodaux. Il maintient un répertoire de compétences basé sur des modèles pré-entraînés en vision et vision-langage, et peut activer des outils pertinents en fonction des entrées des utilisateurs afin de réaliser des tâches du monde réel. Entraîné sur des données d’instruction multimodales, LLaVA-Plus acquiert la capacité d’utiliser des outils, couvrant la compréhension visuelle, la génération, la récupération de connaissances externes et la composition. Les résultats expérimentaux montrent que LLaVA-Plus surpasser LLaVA sur les capacités existantes tout en introduisant de nouvelles fonctionnalités. Il se distingue notamment par le fait que la requête image est directement ancrée et activement intégrée tout au long de l’ensemble des sessions d’interaction homme-IA, ce qui améliore significativement les performances d’utilisation des outils et permet de nouvelles scénarios d’application.