PubMedVision-Datensatz Zur Medizinischen Multimodalen Bewertung
Date
Size
Paper URL
License
Apache 2.0
PubMedVision ist ein Datensatz zur medizinischen multimodalen Leistungsbewertung, der 2024 vom Shenzhen Big Data Research Institute, der Chinese University of Hong Kong (Shenzhen) und dem National Institute of Medical Big Data (Shenzhen) veröffentlicht wurde. Die zugehörigen Ergebnisse sind:HuatuoGPT-Vision: Auf dem Weg zur Einbringung medizinischen visuellen Wissens in multimodale LLMs im großen Maßstab", dessen Ziel es ist, standardisierte Testressourcen für multimodale große Sprachmodelle (MLLMs) in medizinischen Aufgaben zum visuellen Textverstehen bereitzustellen, um ihre Leistung bei der visuellen Wissensfusion und Argumentation im medizinischen Bereich zu testen.
Dieser Datensatz enthält rund 1,3 Millionen Beispiele für medizinische visuelle Frage- und Antworttechniken (VQA), darunter 647.031 ausgerichtete VQA-Beispiele und weitere 647.031 anweisungsbasierte VQA-Beispiele zur Feinabstimmung. Die Daten basieren auf 914.960 sorgfältig ausgewählten medizinischen Bildern und deren Kontext (wie Titeln und Quellenangaben) und decken eine Vielzahl medizinischer Bildgebungsverfahren und anatomischer Regionen ab. Jedes Beispiel besteht aus einem Bild und einem erklärenden Text aus einer medizinischen Fachzeitschrift. Multimodale große Sprachmodelle (wie GPT-4V) werden verwendet, um die entsprechende Bildbeschreibung, Frage und Antwort zu generieren.

Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.