HyperAIHyperAI

Command Palette

Search for a command to run...

LLaVA-Plus : Apprendre à Utiliser des Outils pour Créer des Agents Multimodaux

Résumé

LLaVA-Plus est un assistant multimodal polyvalent qui étend les capacités des grands modèles multimodaux. Il maintient un répertoire de compétences basé sur des modèles pré-entraînés en vision et vision-langage, et peut activer des outils pertinents en fonction des entrées des utilisateurs afin de réaliser des tâches du monde réel. Entraîné sur des données d’instruction multimodales, LLaVA-Plus acquiert la capacité d’utiliser des outils, couvrant la compréhension visuelle, la génération, la récupération de connaissances externes et la composition. Les résultats expérimentaux montrent que LLaVA-Plus surpasser LLaVA sur les capacités existantes tout en introduisant de nouvelles fonctionnalités. Il se distingue notamment par le fait que la requête image est directement ancrée et activement intégrée tout au long de l’ensemble des sessions d’interaction homme-IA, ce qui améliore significativement les performances d’utilisation des outils et permet de nouvelles scénarios d’application.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp