Command Palette
Search for a command to run...
PubMedVision-Datensatz Zur Medizinischen Multimodalen Bewertung
Datum
Paper-URL
Lizenz
Apache 2.0
PubMedVision ist ein Datensatz zur medizinischen multimodalen Leistungsbewertung, der 2024 vom Shenzhen Big Data Research Institute, der Chinese University of Hong Kong (Shenzhen) und dem National Institute of Medical Big Data (Shenzhen) veröffentlicht wurde. Die zugehörigen Ergebnisse sind:HuatuoGPT-Vision: Auf dem Weg zur Einbringung medizinischen visuellen Wissens in multimodale LLMs im großen Maßstab", dessen Ziel es ist, standardisierte Testressourcen für multimodale große Sprachmodelle (MLLMs) in medizinischen Aufgaben zum visuellen Textverstehen bereitzustellen, um ihre Leistung bei der visuellen Wissensfusion und Argumentation im medizinischen Bereich zu testen.
Dieser Datensatz enthält rund 1,3 Millionen Beispiele für medizinische visuelle Frage- und Antworttechniken (VQA), darunter 647.031 ausgerichtete VQA-Beispiele und weitere 647.031 anweisungsbasierte VQA-Beispiele zur Feinabstimmung. Die Daten basieren auf 914.960 sorgfältig ausgewählten medizinischen Bildern und deren Kontext (wie Titeln und Quellenangaben) und decken eine Vielzahl medizinischer Bildgebungsverfahren und anatomischer Regionen ab. Jedes Beispiel besteht aus einem Bild und einem erklärenden Text aus einer medizinischen Fachzeitschrift. Multimodale große Sprachmodelle (wie GPT-4V) werden verwendet, um die entsprechende Bildbeschreibung, Frage und Antwort zu generieren.

KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.