HyperAIHyperAI
il y a un mois

Graphe N-gram : Représentation non supervisée simple pour les graphes, avec des applications aux molécules

Shengchao Liu; Mehmet Furkan Demirel; Yingyu Liang
Graphe N-gram : Représentation non supervisée simple pour les graphes, avec des applications aux molécules
Résumé

Les techniques d'apprentissage automatique (machine learning) ont récemment été adoptées dans diverses applications en médecine, biologie, chimie et ingénierie des matériaux. Une tâche importante consiste à prédire les propriétés des molécules, ce qui sert de sous-routine principale dans de nombreuses applications en aval telles que le criblage virtuel et la conception de médicaments. Malgré l'intérêt croissant, le défi majeur reste la construction de représentations adéquates des molécules pour les algorithmes d'apprentissage. Cet article introduit le graphe N-gramme, une représentation simple et non supervisée des molécules. La méthode commence par plonger les sommets du graphe moléculaire. Elle construit ensuite une représentation compacte du graphe en assemblant les plongements des sommets lors de courts parcours dans le graphe, ce que nous montrons être équivalent à un réseau neuronal graphique simple qui n'a pas besoin d'être entraîné. Les représentations peuvent donc être calculées efficacement et utilisées avec des méthodes d'apprentissage supervisé pour effectuer des prédictions. Des expériences menées sur 60 tâches issues de 10 jeux de données de référence démontrent ses avantages par rapport aux réseaux neuronaux graphiques populaires et aux méthodes traditionnelles de représentation. Cette étude est complétée par une analyse théorique montrant sa forte capacité de représentation et de prédiction.