Die Konstruktion eines ophthalmologischen MLLM für die Positionierung-Diagnose-Kollaboration durch klinische kognitive Kettenreasoning

Multimodale große Sprachmodelle (MLLMs) zeigen großes Potenzial im Bereich der medizinischen Diagnose. Sie begegnen jedoch kritischen Herausforderungen in spezialisierten Bereichen wie der Augenheilkunde, insbesondere der Fragmentierung der Annotationsebene und der Inkonsistenz der klinischen Schlussfolgerungslogik, was eine präzise, multimodale Verständigung behindert. In dieser Arbeit wird FundusExpert vorgestellt, ein ophthalmologisch spezifisches MLLM mit integrierter Positionierung-Diagnose-Reasoning-Fähigkeit, sowie FundusGen, ein Datensatz, der durch das intelligente Fundus-Engine-System erstellt wurde. Das Fundus-Engine-System automatisiert die Lokalisierung und nutzt semantische Erweiterungen basierend auf MLLMs, um die globale Krankheitsklassifizierung, die lokale Objekterkennung und die feinkörnige Merkmalsanalyse innerhalb eines einzigen Fundusbildes zu integrieren. Darüber hinaus ermöglicht die Erstellung einer klinisch ausgerichteten kognitiven Kette, dass das Modell interpretierbare Schlussfolgerungspfade generiert. FundusExpert, das mit Anweisungsdaten aus FundusGen verfeinert wurde, erreicht die beste Leistung bei ophthalmologischen Frage- und Antwort-Aufgaben und übertrifft die durchschnittliche Genauigkeit des 40B MedRegA um 26,6 %. Es schneidet auch hervorragend bei zero-shot Berichtsgenerierungsaufgaben ab und erreicht eine klinische Konsistenz von 77,0 %, was deutlich besser ist als die von GPT-4o mit 47,6 %. Darüber hinaus zeigen wir eine Skalierungsgesetz zwischen Datensatzqualität und Modellfähigkeit (scaling law), wobei sich zeigt, dass die kognitiven Ausrichtungsannotierungen in FundusGen die Datenutzungseffizienz verbessern. Durch die Integration von Regionsebene-Lokalisierung mit Diagnose-Reasoning-Ketten entwickeln wir ein skalierbares, klinisch ausgerichtetes MLLM und untersuchen einen Weg, um die visuelle-Sprach-Lücke in spezifischen MLLMs zu überbrücken. Unser Projekt ist unter dieser URL verfügbar: https://...