Künstliche Intelligenz unterstützt Ethikkommissionen bei Forschungsprüfungen
Philip Nickel, ein Biomedizinischer Ethiker an der Eindhoven University of Technology, erinnert sich an seine Zeit im institutional Review Board (IRB) als sinnvolle, aber mühsame Aufgabe. IRBs prüfen alle menschlichen Forschungsstudien, um Teilnehmer vor Schaden zu schützen – doch die oft mehrere hundert Seiten umfassenden Anträge, oft schlecht vorbereitet, führen zu erheblichen Verzögerungen. Nickel und andere Forscher sehen in künstlicher Intelligenz (KI), insbesondere in großen Sprachmodellen wie GPT-4, Claude oder Google Bard, eine Lösung: Diese könnten automatisiert Fehler, fehlende Angaben oder ethisch-rechtliche Risiken erkennen und so die menschlichen Gutachter entlasten, damit sie sich auf komplexere ethische Urteile konzentrieren können. Bisher gibt es jedoch keine offizielle Integration solcher KI-Systeme in IRB-Verfahren. Dennoch zeigen erste Studien, dass LLMs bereits zuverlässig Schwächen in Risiko-Nutzen-Abwägungen oder Schutzmaßnahmen für Teilnehmer aufdecken können. Eine Vorabveröffentlichung aus dem vergangenen Monat berichtete sogar, dass GPT-4o und Gemini 1.5 Pro in 50 Tierforschungsanträgen 100 % der von Experten identifizierten Probleme erkannten – von fehlenden Dokumenten bis hin zu rechtlichen Lücken. Forscher wie Sebastian Porsdam Mann (Universität Kopenhagen) und Brian Earp (NUS) plädieren dafür, LLMs durch spezifische IRB-Daten zu feinabstimmen, um sie an rechtliche Standards, interne Richtlinien und kulturelle Kontexte anzupassen. Besonders wertvoll seien „Reasoning-Modelle“ wie OpenAI’s o-series oder Anthropic’s Sonnet, die ihre Schlussfolgerungen nachvollziehbar schrittweise darstellen – im Gegensatz zu „Black-Box“-Systemen. Durch die Einbindung von Institutionen-Handbüchern oder politischen Dokumenten könne zudem das Phänomen der „Halluzination“ reduziert werden. Ziel sei nicht die Ersetzung menschlicher Gutachter, sondern die Entlastung von Routineaufgaben, wie Seah Jiehao Joel (NUS) betont. Doch Skepsis bleibt: Medizinethikerin Holly Fernandez Lynch warnt vor einer zunehmenden Abhängigkeit von KI, insbesondere bei kommerziellen IRBs, die 2021 fast die Hälfte der Arzneimittelstudien überprüften und oft unter Druck stehen, schnell und kosteneffizient zu arbeiten. Auch Keymanthri Moodley (Stellenbosch University) weist darauf hin, dass LLMs, die auf westlichen Normen basieren, kulturell unpassend sein könnten – ein Risiko für IRBs im Globalen Süden. Dennoch zeigt sich Steph Grohmann (Ludwig Boltzmann Gesellschaft) optimistisch: Ihre Prototyp-App EthicAlly, basierend auf Claude Sonnet 4, erkannte in 24 von 25 fiktiven Forschungsanträgen ethische Mängel, von fehlenden Teilnehmerinformationen bis zu wissenschaftlichem Rassismus. Sie und Kollegen planen nun, verschiedene kommerzielle Modelle zu testen und langfristig lokal laufende, offene Quellcode-Systeme zu entwickeln, um Datensicherheit und Transparenz zu gewährleisten. Trotz aller Fortschritte betont Fernandez Lynch: „IRBs sollen nicht algorithmisch sein.“ Die menschliche, gemeinschaftliche Reflexion über ethische Schutzpflichten bleibe unverzichtbar. Die KI sei ein Werkzeug – nicht ein Ersatz für die Verantwortung von Menschen.