PMC-VQA: Visuelle Anweisungskalibrierung für medizinische visuelle Fragebeantwortung

Medizinische visuelle Fragebeantwortung (MedVQA) bietet eine bedeutende Möglichkeit, die diagnostische Genauigkeit und die Gesundheitsversorgung durch den Einsatz künstlicher Intelligenz zu verbessern, um Fragen basierend auf medizinischen Bildern zu interpretieren und zu beantworten. In dieser Studie reformulieren wir das Problem der MedVQA als Generierungsaufgabe, die natürlicherweise dem Mensch-Maschine-Interaktionsprozess folgt, und schlagen ein generatives Modell für medizinisches visuelles Verständnis vor, indem wir visuelle Informationen von einem vortrainierten Visionssystem mit einem großen Sprachmodell ausrichten. Wir etablieren einen skalierbaren Prozess zur Erstellung eines groß angelegten medizinischen VQA-Datensatzes, namens PMC-VQA, der 227.000 VQA-Paare von 149.000 Bildern enthält, die verschiedene Modalitäten oder Krankheiten abdecken. Das vorgeschlagene Modell wird auf PMC-VQA trainiert und anschließend an mehreren öffentlichen Benchmarks wie VQA-RAD, SLAKE und Image-Clef-2019 feinjustiert, wobei es bestehende MedVQA-Modelle bei der Generierung relevanter und genauer freiformiger Antworten erheblich übertrifft. Zudem schlagen wir einen Testdatensatz vor, der manuell verifiziert wurde und erheblich anspruchsvoller ist. Dieser dient dazu, die Entwicklung generativer MedVQA-Methoden besser zu überwachen. Um eine umfassende Bewertung und Vergleichsmöglichkeit zu ermöglichen, haben wir eine Rangliste unter https://paperswithcode.com/paper/pmc-vqa-visual-instruction-tuning-for-medical eingerichtet, die als zentralisierte Ressource für die Nachverfolgung des Fortschritts und das Benchmarking fortschrittlicher Ansätze dient. Der PMC-VQA-Datensatz stellt sich als wichtige Ressource für das Forschungsgebiet heraus, und MedVInT markiert einen bedeutenden Durchbruch im Bereich der MedVQA.注:在德语中,“MedVInT” 是一个不常见的术语,因此保留了原始英文缩写。