Synthetische Daten revolutionieren Medforschung – doch Risiken bleiben
Synthetische Daten versprechen erhebliche Fortschritte in der medizinischen Forschung, insbesondere bei der Entwicklung von KI-Modellen für die Bildanalyse, etwa bei der Auswertung von Röntgenaufnahmen. Da weltweit ein Mangel an Radiologen besteht und reale Datensätze oft schwer zugänglich sind – besonders in niedrig- und mittelständischen Ländern – bieten synthetische Daten eine Alternative, um KI-Systeme zu trainieren, ohne auf umfangreiche, ethisch sensibel abgesicherte Datensammlungen angewiesen zu sein. Diese künstlich generierten Datensätze, die auf mathematischen Modellen oder Algorithmen basieren und statistisch realistische Eigenschaften nachahmen, ermöglichen eine schnellere Forschung und erleichtern den Datenaustausch, da das Risiko der Identifizierung von Personen geringer ist. In einigen Hochschulen und Forschungseinrichtungen wird daher bereits auf eine ethische Prüfung verzichtet, da die Daten nicht direkt aus dem realen Leben stammen. Doch diese Entwicklung wirft ernsthafte Bedenken auf. Erstens besteht die Gefahr, dass Personen, deren echte Daten der Grundlage für die Generierung synthetischer Daten waren, dennoch identifiziert werden können – besonders wenn mehrere Iterationen von synthetischen Daten verwendet werden. Zweitens droht ein sogenannter „Modellkollaps“, bei dem KI-Modelle, die auf immer weiteren Generations von synthetischen Daten trainiert wurden, zunehmend inkonsistente oder sinnlose Ergebnisse liefern. Ohne unabhängige Validierung durch Dritte bleibt die Aussagekraft solcher Modelle fraglich. Experten wie Zisis Kozlakidis vom Weltgesundheitsorganisationszentrum in Genf betonen, dass Forscher transparent über die Erzeugungsmethoden, Algorithmen und Annahmen ihrer synthetischen Daten berichten müssen, um Nachvollziehbarkeit zu gewährleisten. Auch Randi Foraker von der University of Missouri fordert standardisierte Berichterstattung, ähnlich wie bereits für echte Daten und Code existiert. Marcel Binz vom Helmholtz-Institut für menschenzentrierte KI betont, dass selbst fortschrittliche Modelle wie „Centaur“, das auf über zehn Millionen Entscheidungsdaten aus psychologischen Experimenten basiert, extern validiert werden müssen, um ihre Glaubwürdigkeit zu sichern. Die KI ist kein autonomes Urteilssystem – ihre Ergebnisse müssen kritisch geprüft werden. Die Vorteile synthetischer Daten sind signifikant: Sie beschleunigen die Forschung, senken Kosten und erweitern den Zugang zu Daten in Ressourcenarmen Regionen. Doch die Risiken – Identifikationsgefahr, Modellkollaps und fehlende Validierung – dürfen nicht unterschätzt werden. Die wissenschaftliche Gemeinschaft muss gemeinsam Richtlinien entwickeln, die Transparenz, Nachvollziehbarkeit und unabhängige Überprüfung sicherstellen. Die Versuchung, Ergebnisse automatisch als wahr anzunehmen, weil sie von einer KI generiert wurden, muss entschieden abgelehnt werden. Nur so kann die KI-Revolution in der Medizin sicher und verantwortungsvoll voranschreiten.
