HyperAIHyperAI
il y a 2 mois

LLaVA-Med : Formation d'un grand assistant linguistique et visuel pour la biomédecine en une journée

Chunyuan Li; Cliff Wong; Sheng Zhang; Naoto Usuyama; Haotian Liu; Jianwei Yang; Tristan Naumann; Hoifung Poon; Jianfeng Gao
LLaVA-Med : Formation d'un grand assistant linguistique et visuel pour la biomédecine en une journée
Résumé

L'IA conversationnelle générative a montré un potentiel remarquable pour renforcer les praticiens biomédicaux, mais les enquêtes actuelles se concentrent sur le texte unimodal. L'IA conversationnelle multimodale a connu des progrès rapides en exploitant des milliards de paires image-texte provenant du web public, mais ces modèles de vision-langue à domaine général manquent encore de sophistication dans la compréhension et la discussion des images biomédicales. Dans cet article, nous proposons une approche rentable pour entraîner un assistant conversationnel de vision-langue capable de répondre à des questions de recherche ouvertes sur les images biomédicales. L'idée clé est d'utiliser un jeu de données à grande échelle et couvrant largement les figures légendées extraites de PubMed Central, d'utiliser GPT-4 pour générer des instructions ouvertes à partir des légendes, puis d'affiner un grand modèle de vision-langue à domaine général en utilisant une méthode innovante d'apprentissage par programme progressif. Plus précisément, le modèle apprend d'abord à aligner le vocabulaire biomédical en utilisant les paires figure-légende telles quelles, puis il apprend à maîtriser la sémantique conversationnelle ouverte en utilisant des données d'instruction générées par GPT-4, imitant globalement la manière dont une personne non spécialisée acquiert progressivement des connaissances biomédicales. Cela nous permet d'entraîner un Grand Assistant Linguistique et Visuel pour la Biomédecine (LLaVA-Med) en moins de 15 heures (avec huit A100). LLaVA-Med montre une excellente capacité conversationnelle multimodale et peut suivre des instructions ouvertes pour aider aux interrogations concernant une image biomédicale. Sur trois jeux de données standard pour l'interrogation visuelle biomédicale, LLaVA-Med surpassent les précédents états de l'art supervisés selon certains critères. Pour faciliter la recherche multimodale biomédicale, nous mettrons à disposition nos données d'instruction et le modèle LLaVA-Med.

LLaVA-Med : Formation d'un grand assistant linguistique et visuel pour la biomédecine en une journée | Articles de recherche récents | HyperAI