HyperAIHyperAI
Back to Headlines

Forscher entschlüsseln Geheimnisse von Protein-Sprachmodellen

vor 2 Tagen

In den letzten Jahren haben sogenannte Protein-Sprachmodelle, die auf großen Sprachmodellen (LLMs) basieren, die biomedizinische Forschung revolutioniert. Diese Modelle können mit hoher Genauigkeit Vorhersagen über die Struktur und Funktion von Proteinen treffen und werden beispielsweise bei der Identifizierung von Arzneimittelzielen oder der Entwicklung therapeutischer Antikörper eingesetzt. Dennoch blieb unklar, wie genau diese Modelle zu ihren Ergebnissen kommen – ein sogenannter „Schwarzer Kasten“, dessen interne Funktionsweise bisher nicht nachvollziehbar war. Forscher um Bonnie Berger vom MIT haben nun eine neue Methode entwickelt, um diesen Kasten zu öffnen. Mit Hilfe eines sogenannten sparsen Autoencoders erweiterten sie die neuronale Repräsentation von Proteinen von 480 auf 20.000 Knoten. Dadurch wurde die Informationsdichte reduziert, sodass einzelne neuronale Aktivitäten klarer auf spezifische Proteineigenschaften wie Funktion, Proteinfamilie oder Zelllokalisierung zurückgeführt werden konnten. Diese sparsen Darstellungen wurden anschließend von einem KI-Assistenten namens Claude analysiert, der in natürlicher Sprache erklärte, welche biologischen Merkmale jeweils von bestimmten Neuronen erfasst werden – etwa „dieses Neuron erkennt Proteine, die an der Transmembran-Transport von Ionen oder Aminosäuren beteiligt sind“. Die Methode ermöglicht erstmals eine tiefe Einblicke in die Entscheidungsprozesse von Protein-Sprachmodellen. Dies könnte helfen, geeignete Modelle für spezifische Aufgaben auszuwählen oder Eingabedaten gezielt anzupassen. Zudem könnte die Analyse der erkannten Merkmale neue biologische Erkenntnisse liefern, da die Modelle möglicherweise Muster erfassen, die menschliche Forscher bisher übersehen haben. Industrieexperten sehen in der Studie einen bedeutenden Fortschritt für die „Erklärbarkeit“ künstlicher Intelligenz in der Biologie. „Die Fähigkeit, die Entscheidungslogik von Modellen zu entschlüsseln, ist entscheidend für den vertrauenswürdigen Einsatz in der medizinischen Forschung“, sagt ein Experte für Bioinformatik. Die Arbeit unterstreicht, dass selbst nicht explizit für Interpretierbarkeit trainierte Modelle durch strukturelle Eigenschaften wie Sparsamkeit zu transparenten Repräsentationen führen können. Die MIT-Forschungsgruppe um Berger, Gujral und Alm hat sich bereits durch bahnbrechende Arbeiten in der Proteinforschung etabliert – darunter die Entwicklung der ersten Protein-Sprachmodelle und bahnbrechende Anwendungen in der Impfstoffforschung gegen Viren wie HIV und SARS-CoV-2. Die Studie wurde vom National Institutes of Health gefördert und markiert einen Meilenstein auf dem Weg zu vertrauenswürdiger, biologisch fundierter KI.

Related Links