HyperAIHyperAI
vor 17 Tagen

PMC-CLIP: Kontrastives Sprache-Bild-Vortrainieren unter Verwendung biomedizinischer Dokumente

Weixiong Lin, Ziheng Zhao, Xiaoman Zhang, Chaoyi Wu, Ya Zhang, Yanfeng Wang, Weidi Xie
PMC-CLIP: Kontrastives Sprache-Bild-Vortrainieren unter Verwendung biomedizinischer Dokumente
Abstract

Grundlagenmodelle, die auf großskaligen Datensätzen trainiert werden, erleben in den Bereichen Computer Vision (CV) und Natural Language Processing (NLP) eine jüngste rasant steigende Entwicklung. Im Gegensatz dazu bleibt die Entwicklung im biomedizinischen Bereich aufgrund der Knappheit an Daten deutlich zurück. Um dieses Problem anzugehen, haben wir den Datensatz PMC-OA erstellt und veröffentlicht, der 1,6 Millionen Bild-Text-Paare umfasst und aus dem Open-Access-Teil von PubMedCentral entnommen wurde – damit ist er achtmal größer als frühere verfügbare Datensätze. PMC-OA deckt eine Vielzahl von Modalitäten und Krankheitsbilder ab, wobei die Mehrheit der Bild-Text-Beispiele auf feinerer Ebene ausgerichtet ist, d. h. auf Unterbilder und Untertitel. Bei der Vortrainierung eines CLIP-ähnlichen Modells auf PMC-OA erreicht unser Modell, PMC-CLIP, state-of-the-art-Ergebnisse bei verschiedenen Anwendungsaufgaben, darunter Bild-Text-Recherche auf ROCO, MedMNIST-Bildklassifikation und medizinische VQA. Die Leistungssteigerung beträgt dabei +8,1 % bei R@10 in der Bild-Text-Recherche und +3,9 % in der Bildklassifikation.