Neue Methode zur Entschlüsselung von KI-Bias
Forscher des MIT, des Worcester Polytechnic Institute und Google haben eine neue Methode entwickelt, um KI-Modelle für Computer Vision fairer zu machen, ohne ihre Genauigkeit zu beeinträchtigen. Das Team präsentierte in einem für die 2026 International Conference for Learning Representations akzeptierten Papier den Ansatz namens „Weighted Rotational DebiasING" (WRING). Diese Technik soll das bekannte „Whac-a-Mole-Dilemma" lösen, bei dem das Entfernen von Verzerrungen in KI-Modellen oft unbeabsichtigt neue Vorurteile erzeugt. In sensiblen Bereichen wie der Medizin ist dies von kritischer Bedeutung. Ein KI-Modell zur Klassifizierung von Hautläsionen könnte Patienten mit bestimmten Hauttönen übersehen, wenn es verzerrt ist. Solche Fehlentscheidungen sind nicht nur technische Mängel, sondern stellen reale Sicherheitsrisiken dar. Bisherige Ansätze zur Entzerrung, wie das sogenannte Projektions-Debasing, arbeiten nach der Idee, den Raum der Verzerrungen mathematisch auszublenden. Allerdings führt diese Methode dazu, dass auch nützliche Zusammenhänge im Modell gestört werden. Laut Walter Gerych, erstem Autor der Studie und heute Assistenzprofessor am Worcester Polytechnic Institute, werden dabei alle anderen Beziehungen, die das Modell gelernt hat, unbeabsichtigt verzerrt. Wenn beispielsweise eine rassistische Verzerrung entfernt wird, kann dies unbeabsichtigt zu einer Verstärkung von Geschlechterverzerrungen führen. WRING bietet hier eine elegantere Lösung. Anstatt den Raum der Verzerrungen einfach zu löschen, verschiebt die Methode bestimmte Koordinaten in den hochdimensionalen Datenräumen des Modells in einen anderen Winkel. Dadurch verliert das Modell die Fähigkeit, Gruppen innerhalb eines bestimmten Konzepts zu unterscheiden, während alle anderen Beziehungen im Modell intakt bleiben. Wie das Projektions-Debasing handelt es sich bei WRING um einen Nachbearbeitungsschritt. Das bedeutet, die Methode kann auf bereits trainierte Modelle angewendet werden, ohne dass diese von Grund auf neu trainiert werden müssen. Da das Training großer Modelle extrem ressourcenintensiv ist, ist diese effiziente und wenig invasive Methode von großem praktischen Nutzen. Die Ergebnisse zeigen, dass WRING die Verzerrung eines Zielkonzepts signifikant reduziert, ohne die Verzerrung in anderen Bereichen zu erhöhen. Derzeit konzentriert sich der Ansatz jedoch noch auf CLIP-Modelle, eine Art von multimodalen Modellen, die Bilder mit Sprache verbinden. Forscher sehen die Erweiterung dieser Technik auf generative Sprachmodelle, ähnlich wie ChatGPT, als den nächsten logischen Schritt an. Die Studie wurde unter anderem durch Fördermittel der National Science Foundation, der Gordon and Betty Moore Stiftung und das MIT-Google Computing Innovation Award unterstützt. Das Team bestand aus Gerych, den MIT-Studenten Cassandra Parent und Quinn Perian, Rafiya Javed von Google sowie den MIT-Professoren Justin Solomon und Marzyeh Ghassemi, deren Arbeit einen wesentlichen Beitrag zur ethischen Gestaltung von KI in sensiblen Anwendungsbereichen leistet.
