Zu einem besseren Modell mit Dual Transformer für die Vorhersage von Drogenantworten

In den letzten Jahren haben GNN-basierte Methoden ausgezeichnete Ergebnisse als Haupttask bei der Vorhersage von Drogenantworten erzielt. Traditionelle GNN-Methoden verwenden nur die Atome in einer Drogensubstruktur als Knoten, um durch das Übertragen von Knoteninformationen eine Darstellung des molekularen Graphen zu erhalten. Methoden, die auf dem Transformer basieren, können hingegen nur Informationen über die Knoten extrahieren. Allerdings haben die kovalenten Bindungen und die Chiralität einer Drogensubstruktur einen großen Einfluss auf ihre pharmakologischen Eigenschaften, und diese Informationen sind in den chemischen Bindungen impliziert, die durch die Kanten zwischen den Atomen gebildet werden. Zudem können CNN-Methoden zur Modellierung von Genomsequenzdaten von Zelllinien nur lokale und nicht globale Informationen über die Sequenz wahrnehmen.Um die oben genannten Probleme zu lösen, schlagen wir eine entkoppelte Dual-Transformer-Struktur mit eingebetteten Kanten vor (TransEDRP), welche für die Darstellung von Genomsequenzdaten von Zelllinien und Drogen verwendet wird. Für den Drogenast verzahnen wir die chemische Bindungsinformation innerhalb der Moleküle als Kantenembedding in den molekularen Graph ein und extrahieren mittels Graph-Transformer globale strukturelle und biochemische Informationen des Drogenmoleküls. Im Ast der Genomsequenzdaten von Zelllinien nutzen wir den Multi-Headed Attention Mechanismus zur globalen Darstellung der Genomsequenz.Schließlich werden der Drogenast und der Ast der Genomsequenzdaten durch eine Transformer-Schicht und eine vollständig vernetzte Schicht fusioniert, um IC50-Werte vorherzusagen; dabei handelt es sich bei beiden Asten um unterschiedliche Modalitäten. Ausführliche Experimente haben gezeigt, dass unsere Methode in allen Bewertungsindikatoren besser ist als derzeitige Mainstream-Ansätze.