HyperAIHyperAI

Command Palette

Search for a command to run...

LLaVA-Med: Training eines großen sprach- und bildbasierten Assistenten für die Biomedizin innerhalb eines Tages

Chunyuan Li* Cliff Wong* Sheng Zhang* Naoto Usuyama Haotian Liu Jianwei Yang Tristan Naumann Hoifung Poon Jianfeng Gao

Zusammenfassung

Konversationsbasierte generative KI hat erhebliches Potenzial gezeigt, um Biomediziner zu unterstützen, aktuelle Untersuchungen konzentrieren sich jedoch auf einmodales Textmaterial. Multimodale konversationsbasierte KI hat durch die Nutzung von Milliarden von Bild-Text-Paaren aus dem öffentlichen Internet rasche Fortschritte gemacht, aber solche allgemein domänenbezogene Vision-Sprachmodelle fehlen noch an Feinheit bei der Verarbeitung und Diskussion biomedizinischer Bilder. In dieser Arbeit schlagen wir einen kosteneffizienten Ansatz vor, um einen Vision-Sprach-Assistenten zu trainieren, der offene Forschungsfragen zu biomedizinischen Bildern beantworten kann. Das zentrale Konzept besteht darin, einen groß angelegten, breit gefächerten Datensatz mit Abbildungen und deren Beschriftungen aus PubMed Central zu nutzen, GPT-4 zur Erstellung von offenen Anweisungen aus den Beschriftungen einzusetzen und anschließend ein großes allgemein domänenbezogenes Vision-Sprachmodell mittels einer neuartigen Curriculum-Lernmethode weiterzutrainieren. Im Speziellen lernt das Modell zunächst, biomedizinische Vokabularien unter Verwendung der unveränderten Abbildung-Beschriftungs-Paare auszurichten. Danach lernt es, offene konversationelle Semantiken zu beherrschen, indem es auf GPT-4-generierte Anweisungsdaten zurückgreift – im Großen und Ganzen nachahmend, wie ein Laienbiomediziner biomedizinisches Wissen allmählich erlangt. Dies ermöglicht uns die Trainierung eines großen Sprach- und Vision-Assistenten für Biomedizin (LLaVA-Med) in weniger als 15 Stunden (mit acht A100-Grafikkarten). LLaVA-Med zeigt ausgezeichnete multimodale konversationelle Fähigkeiten und kann offenen Anweisungen folgen, um bei Anfragen zu biomedizinischen Bildern behilflich zu sein. Bei drei standardisierten Datensätzen für biomedizinische visuelle Fragebeantwortung übertrifft LLaVA-Med bestimmte Metriken des bisherigen überwachten Standes der Technik. Um die multimodale biomedizinische Forschung zu fördern, werden wir unsere Anweisungsdaten sowie das LLaVA-Med-Modell veröffentlichen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp