HyperAI超神经

GMAI-MMBench ist ein multimodaler Bewertungsmaßstab, der die Entwicklung allgemeiner medizinischer künstlicher Intelligenz fördern soll. Es wurde 2024 gemeinsam von neun Institutionen ins Leben gerufen, darunter das Shanghai Artificial Intelligence Laboratory, die University of Washington, die Monash University, die East China Normal University, die University of Cambridge, die Shanghai Jiao Tong University, die Chinese University of Hong Kong (Shenzhen), das Shenzhen Institute of Big Data und das Shenzhen Institute of Advanced Technology der Chinese Academy of Sciences.GMAI-MMBench: Ein umfassender multimodaler Bewertungsbenchmark für allgemeine medizinische KI". Es hilft Forschern und Entwicklern, tiefe Einblicke in die Anwendungseffekte von Large Vision-Language Models (LVLMs) im medizinischen Bereich zu gewinnen und technische Mängel durch umfassende und detaillierte Bewertungen zu identifizieren. Dieser Benchmark deckt ein breites Spektrum an Datensätzen ab, darunter 284 Datensätze aus verschiedenen Quellen, die 38 medizinische Bildmodalitäten und 18 klinisch relevante Aufgaben beinhalten, 18 verschiedene medizinische Abteilungen abdecken und mit 4 verschiedenen Wahrnehmungsgranularitäten ausgewertet werden, wodurch die Leistung von LVLMs aus mehreren Dimensionen betrachtet wird.

Ein bemerkenswertes Merkmal von GMAI-MMBench ist die Bewertung der multiperzeptuellen Granularität, die sich nicht nur auf die Bewertung auf der Gesamtebene des Bildes konzentriert, sondern auch tief in die regionale Ebene eindringt und so eine detailliertere und umfassendere Bewertungsperspektive bietet. Da der Datensatz zudem hauptsächlich aus Krankenhäusern stammt und von Fachärzten kommentiert wird, sind die Bewertungsaufgaben von GMAI-MMBench näher an realen klinischen Szenarien und weisen ein hohes Maß an klinischer Relevanz auf. Diese Korrelation macht die Ergebnisse der Benchmarks aufschlussreich für medizinische Anwendungen in der realen Welt.

GMAI-MMBench ermöglicht Benutzern auch die Anpassung von Bewertungsaufgaben. Durch die Implementierung einer Vokabelbaumstruktur können Benutzer Bewertungsaufgaben entsprechend ihren eigenen Anforderungen definieren, was Flexibilität für die medizinische KI-Forschung und -Anwendung bietet. Durch die Auswertung von 50 LVLMs, darunter einige fortschrittliche GPT-4o-Modelle, stellte das Forschungsteam fest, dass selbst die fortschrittlichsten Modelle bei der Behandlung medizinischer Probleme lediglich eine Genauigkeit von 52% erreichten, was zeigt, dass bei der Anwendung aktueller LVLMs im medizinischen Bereich noch viel Raum für Verbesserungen besteht. Die Entwicklung von GMAI-MMBench stellt eine wertvolle Ressource für die Bewertung und Verbesserung der Anwendung von LVLMs im medizinischen Bereich dar, zeigt gleichzeitig die Herausforderungen auf, denen sich aktuelle Technologien gegenübersehen, und weist auf Richtungen für zukünftige Forschung hin.

GMAI-MMBench Benchmark-Datensatz Für Die Medizinische Multimodale Bewertung