SSM-DTA: Überwindung der Datenknappheit bei der Vorhersage der Arzneimittel-Zielbindung

Die präzise Vorhersage der Arzneimittel-Ziel-Wechselwirkungsaffinität (Drug-Target Affinity, DTA) ist von entscheidender Bedeutung für die frühe Phase der Arzneimittelentwicklung, da sie die Identifizierung von Arzneimitteln ermöglicht, die gezielt mit bestimmten Zielen interagieren und deren Aktivität regulieren können. Während experimentelle Untersuchungen im Labor weiterhin die zuverlässigste Methode darstellen, sind sie zeitaufwendig und ressourcenintensiv, was zu einer begrenzten Verfügbarkeit von Daten führt und somit Herausforderungen für Deep-Learning-Ansätze darstellt. Bisherige Ansätze haben sich hauptsächlich auf die Entwicklung von Techniken basierend auf den verfügbaren DTA-Daten konzentriert, ohne die Problematik der Datenknappheit ausreichend zu adressieren. Um diese Herausforderung zu überwinden, präsentieren wir den SSM-DTA-Framework, der drei einfache, jedoch äußerst effektive Strategien integriert: (1) Ein Multi-Task-Lernansatz, der die DTA-Vorhersage mit dem Masked-Language-Modeling (MLM) unter Verwendung von Paaren aus Arzneimitteln und Zielen kombiniert. (2) Eine semi-supervised Lernmethode, die große Mengen an unpaarigen Molekülen und Proteinen nutzt, um die Repräsentationen von Arzneimitteln und Zielen zu verbessern. Im Gegensatz zu früheren Ansätzen, die lediglich Moleküle oder Proteine im Vortrainingsprozess einsetzten, erweitert dieser Ansatz den Informationsgehalt durch Nutzung beider Komponenten. (3) Die Integration eines leichtgewichtigen Cross-Attention-Moduls zur Verbesserung der Wechselwirkung zwischen Arzneimitteln und Zielen, was die Vorhersagegenauigkeit weiter erhöht. In umfangreichen Experimenten auf Benchmark-Datensätzen wie BindingDB, DAVIS und KIBA zeigen wir die herausragende Leistungsfähigkeit unseres Frameworks. Zudem führen wir Fallstudien zu spezifischen Arzneimittel-Ziel-Wechselwirkungen, virtuelle Screening-Experimente, Visualisierungen von Arzneimittelmerkmalen sowie Anwendungen in der Praxis durch, die alle das erhebliche Potenzial unserer Arbeit unterstreichen. Zusammenfassend adressiert unser vorgeschlagener SSM-DTA-Framework die Herausforderung der Datenlimitierung bei der DTA-Vorhersage und erzielt vielversprechende Ergebnisse, was den Weg für effizientere und genauere Prozesse in der Arzneimittelentwicklung ebnen wird. Unser Quellcode ist unter $\href{https://github.com/QizhiPei/SSM-DTA}{Github}$ verfügbar.