HyperAIHyperAI

Command Palette

Search for a command to run...

MIT veröffentlicht neue Ergebnisse zur Verbesserung der Erklärbarkeit von KI-Modellvorhersagen

In hochsensiblen Bereichen wie der medizinischen Diagnostik ist es entscheidend, nachvollziehen zu können, wie Künstliche Intelligenz zu ihren Vorhersagen gelangt. Um dieses Vertrauen zu stärken, nutzen Forscher Concept-Bottleneck-Modelle, die es KI-Systemen ermöglichen, ihre Entscheidungsprozesse durch menschenverständliche Konzepte zu erklären. Ein Team von Informatikern des MIT hat nun eine neue Methode entwickelt, die sowohl die Genauigkeit der Modelle verbessert als auch präzisere und kürzere Erklärungen liefert. Bisher wurden die Konzepte in solchen Modellen meist von menschlichen Experten im Voraus definiert, etwa indem Kliniker Begriffe wie „geclusterter brauner Punkt" für die Erkennung von Melanomen festlegten. Diese manuelle Vorgabe kann jedoch zu ungenauen Ergebnissen führen, wenn die vorgegebenen Konzepte für den spezifischen Zweck irrelevant sind oder nicht ausreichend detailliert. Die neue Technik umgeht dieses Problem, indem sie Konzepte extrahiert, die das Modell während des Trainings für die jeweilige Aufgabe bereits gelernt hat. Dies geschieht durch zwei spezialisierte Modelle, die automatisiert Wissen aus dem Zielmodell gewinnen und in Klartext übersetzen. Antonio De Santis, einer der führenden Autoren der Studie und Doktorand der Polytechnischen Universität Mailand, beschreibt das Ziel darin, den „Gedanken" dieser Computer-Netzwerke nachvollziehen zu können. Da die Methode hochwertige Konzepte nutzt, führt sie zu höherer Genauigkeit und verbessert die Rechenschaftspflicht von sogenannten Black-Box-Modellen, deren innere Abläufe sonst undurchsichtig bleiben. Zusammen mit Kollegen von der Polytechnischen Universität Mailand und dem Computer Science and Artificial Intelligence Laboratory (CSAIL) des MIT haben die Forscher ihre Ergebnisse auf der International Conference on Learning Representations vorgestellt. Der Ansatz funktioniert über einen sogenannten Sparse Autoencoder, der die für die Aufgabe relevantesten Merkmale selektiv extrahiert und in eine begrenzte Anzahl von Konzepten umwandelt. Ein multimodales Large Language Model beschreibt diese Konzepte in menschlicher Sprache und annotiert zudem das Trainingsdatenset, um zu identifizieren, welche Merkmale in welchen Bildern vorhanden sind. Auf Basis dieser annotierten Daten wird ein Concept-Bottleneck-Modul trainiert und in das Zielmodell integriert. Um Informationen zu bündeln und ungewollte Aspekte auszuschließen, wird das Modell darauf beschränkt, für jede Vorhersage lediglich fünf Konzepte zu nutzen. Dies zwingt das System, die relevantesten Merkmale zu wählen und liefert klarere Erklärungen. Tests auf verschiedenen Aufgaben, wie der Erkennung von Vogelarten oder Hautläsionen, zeigten, dass die neue Methode in puncto Genauigkeit und Präzision der Erklärungen besser abschneidet als bestehende Standards. Dennoch gibt es weiterhin einen Zielkonflikt zwischen Interpretierbarkeit und maximaler Genauigkeit. Uninterpretierbare Black-Box-Modelle übertreffen diese neue Methode in manchen Bereichen noch. Die Forscher planen, in Zukunft den sogenannten Informationsleckage-Effekt zu bekämpfen und die Methode mit größeren Datenmengen zu skalieren, um die Leistung weiter zu steigern. Experten wie Andreas Hotho von der Universität Würzburg begrüßen den Ansatz als vielversprechenden Schritt hin zu erklärbarer KI, der eine Brücke zu symbolischer KI schlägt.

Verwandte Links

MIT veröffentlicht neue Ergebnisse zur Verbesserung der Erklärbarkeit von KI-Modellvorhersagen | Aktuelle Beiträge | HyperAI