vor 2 Monaten

LLaVA-Med: Training eines großen sprach- und bildbasierten Assistenten für die Biomedizin innerhalb eines Tages

Chunyuan Li; Cliff Wong; Sheng Zhang; Naoto Usuyama; Haotian Liu; Jianwei Yang; Tristan Naumann; Hoifung Poon; Jianfeng Gao

Details der Forschungsarbeit anzeigen

LLaVA-Med: Training eines großen sprach- und bildbasierten Assistenten für die Biomedizin innerhalb eines Tages

Abstract

Konversationsbasierte generative KI hat erhebliches Potenzial gezeigt, um Biomediziner zu unterstützen, aktuelle Untersuchungen konzentrieren sich jedoch auf einmodales Textmaterial. Multimodale konversationsbasierte KI hat durch die Nutzung von Milliarden von Bild-Text-Paaren aus dem öffentlichen Internet rasche Fortschritte gemacht, aber solche allgemein domänenbezogene Vision-Sprachmodelle fehlen noch an Feinheit bei der Verarbeitung und Diskussion biomedizinischer Bilder. In dieser Arbeit schlagen wir einen kosteneffizienten Ansatz vor, um einen Vision-Sprach-Assistenten zu trainieren, der offene Forschungsfragen zu biomedizinischen Bildern beantworten kann. Das zentrale Konzept besteht darin, einen groß angelegten, breit gefächerten Datensatz mit Abbildungen und deren Beschriftungen aus PubMed Central zu nutzen, GPT-4 zur Erstellung von offenen Anweisungen aus den Beschriftungen einzusetzen und anschließend ein großes allgemein domänenbezogenes Vision-Sprachmodell mittels einer neuartigen Curriculum-Lernmethode weiterzutrainieren. Im Speziellen lernt das Modell zunächst, biomedizinische Vokabularien unter Verwendung der unveränderten Abbildung-Beschriftungs-Paare auszurichten. Danach lernt es, offene konversationelle Semantiken zu beherrschen, indem es auf GPT-4-generierte Anweisungsdaten zurückgreift – im Großen und Ganzen nachahmend, wie ein Laienbiomediziner biomedizinisches Wissen allmählich erlangt. Dies ermöglicht uns die Trainierung eines großen Sprach- und Vision-Assistenten für Biomedizin (LLaVA-Med) in weniger als 15 Stunden (mit acht A100-Grafikkarten). LLaVA-Med zeigt ausgezeichnete multimodale konversationelle Fähigkeiten und kann offenen Anweisungen folgen, um bei Anfragen zu biomedizinischen Bildern behilflich zu sein. Bei drei standardisierten Datensätzen für biomedizinische visuelle Fragebeantwortung übertrifft LLaVA-Med bestimmte Metriken des bisherigen überwachten Standes der Technik. Um die multimodale biomedizinische Forschung zu fördern, werden wir unsere Anweisungsdaten sowie das LLaVA-Med-Modell veröffentlichen.