CoTox: Kettenfolge-basierte molekulare Toxizitätsbegründung und -vorhersage

Toxizität von Arzneimitteln bleibt eine zentrale Herausforderung in der pharmazeutischen Entwicklung. Obwohl neuere maschinelle Lernmodelle die Vorhersage von Toxizität in silico erheblich verbessert haben, beschränken ihre Abhängigkeit von annotierten Daten und ihre geringe Interpretierbarkeit ihre Anwendbarkeit. Insbesondere sind sie oft nicht in der Lage, organ-spezifische Toxizitäten zu erfassen, die durch komplexe biologische Mechanismen verursacht werden. Große Sprachmodelle (LLMs) bieten hier eine vielversprechende Alternative durch schrittweise Schlussfolgerung und die Integration textbasierter Daten. Allerdings fehlen bisherige Ansätze biologischem Kontext und einer transparenten Begründung. Um dieses Problem zu lösen, stellen wir CoTox vor, einen neuartigen Ansatz, der ein großes Sprachmodell mit einer Kette von Gedankengängen (Chain-of-Thought, CoT) zur Vorhersage mehrerer Toxizitäten kombiniert. CoTox integriert chemische Strukturdaten, biologische Signalwege sowie Genontologie-(GO)-Begriffe, um durch schrittweise, interpretierbare Schlussfolgerungen Toxizitätsvorhersagen zu generieren. Mit GPT-4o zeigen wir, dass CoTox sowohl traditionelle maschinelle Lern- als auch tiefgreifende Lernmodelle übertrifft. Zudem untersuchen wir die Leistungsfähigkeit von CoTox über verschiedene LLMs hinweg, um zu identifizieren, in welchen Fällen das Modell besonders effektiv ist. Darüber hinaus stellen wir fest, dass die Darstellung chemischer Strukturen mittels IUPAC-Namen – im Vergleich zu SMILES-Formaten, die für LLMs schwieriger zu verarbeiten sind – die Schlussfolgerungsfähigkeit des Modells verbessert und die Vorhersagegenauigkeit erhöht. Um die praktische Relevanz für die Arzneimittelentwicklung zu demonstrieren, simulieren wir die Behandlung relevanter Zelltypen mit einem Arzneimittel und integrieren die resultierenden biologischen Kontextinformationen in das CoTox-Modell. Dieser Ansatz ermöglicht es CoTox, Toxizitätsvorhersagen zu generieren, die mit physiologischen Reaktionen übereinstimmen, wie ein Fallbeispiel zeigt. Diese Ergebnisse unterstreichen das Potenzial von LLM-basierten Ansätzen, die Interpretierbarkeit zu steigern und die Sicherheitsbewertung in frühen Phasen der Arzneimittelentwicklung zu unterstützen. Der Quellcode und die verwendeten Prompt-Texte sind unter https://github.com/dmis-lab/CoTox verfügbar.