HyperAIHyperAI
vor 9 Tagen

Vortrainieren von Graph Neural Networks auf Molekülen durch Verwendung eines untergraphenbedingten Graph-Information-Bottleneck

{Van Thuy Hoang; O-Joun Lee}
Vortrainieren von Graph Neural Networks auf Molekülen durch Verwendung eines untergraphenbedingten Graph-Information-Bottleneck
Abstract

Diese Studie zielt darauf ab, ein vortrainiertes Graph Neural Network (GNN)-Modell für Moleküle zu entwickeln, ohne menschliche Annotationen oder vorherige Wissensbasis zu benötigen. Obwohl verschiedene Ansätze vorgeschlagen wurden, um die Beschränkungen bei der Beschaffung beschrifteter Moleküle zu überwinden, basieren die bisherigen Vortrainingsmethoden weiterhin auf semantischen Teilgraphen, also funktionellen Gruppen. Die reine Fokussierung auf funktionelle Gruppen kann jedoch graphenbasierte Unterschiede übersehen. Die zentrale Herausforderung bei der Entwicklung eines vortrainierten GNNs für Moleküle besteht darin, (1) gut unterscheidbare graphenbasierte Darstellungen zu generieren und (2) funktionelle Gruppen ohne vorherige Kenntnisse automatisch zu entdecken. Um dieses Problem zu lösen, schlagen wir einen neuen Ansatz namens Subgraph-conditioned Graph Information Bottleneck (S-CGIB) vor, um GNNs zum Vortrainieren zu nutzen, um Kern-Teilgraphen (Graph-Kerne) und signifikante Teilgraphen zu erkennen. Der zentrale Ansatz besteht darin, dass die Graph-Kerne komprimierte und ausreichende Informationen enthalten, die es ermöglichen, gut unterscheidbare graphenbasierte Darstellungen zu erzeugen und den Eingabegraphen unter der S-CGIB-Prinzipienbedingung anhand signifikanter Teilgraphen über verschiedene Moleküle hinweg wiederherzustellen. Um signifikante Teilgraphen ohne vorherige Kenntnisse über funktionelle Gruppen zu identifizieren, schlagen wir vor, eine Menge von funktionellen Gruppen-Kandidaten, nämlich ego-Netzwerke, zu generieren und eine auf Aufmerksamkeit basierende Interaktion zwischen dem Graph-Kern und den Kandidaten zu nutzen. Trotz der selbstüberwachten Lernform ergeben sich unsere gelernten Teilgraphen in Übereinstimmung mit realen funktionellen Gruppen in der Chemie. Umfassende Experimente auf Moleküldatenbanken aus verschiedenen Domänen belegen die Überlegenheit des S-CGIB-Ansatzes.