HyperAIHyperAI
il y a un mois

Stratégies pour l'entraînement préalable des réseaux neuronaux graphiques

Weihua Hu; Bowen Liu; Joseph Gomes; Marinka Zitnik; Percy Liang; Vijay Pande; Jure Leskovec
Stratégies pour l'entraînement préalable des réseaux neuronaux graphiques
Résumé

De nombreuses applications de l'apprentissage automatique nécessitent qu'un modèle fasse des prédictions précises sur des exemples de test dont la distribution est différente de celle des exemples d'entraînement, alors que les étiquettes spécifiques à la tâche sont rares pendant l'entraînement. Une approche efficace face à ce défi consiste à pré-entraîner un modèle sur des tâches connexes où les données sont abondantes, puis à l'affiner sur une tâche cible. Bien que le pré-entraînement ait été efficace dans de nombreux domaines linguistiques et visuels, il reste une question ouverte de savoir comment utiliser efficacement le pré-entraînement sur des ensembles de données graphiques. Dans cet article, nous développons une nouvelle stratégie et des méthodes d'auto-supervision pour le pré-entraînement des Réseaux Neuronaux Graphiques (GNNs) [Graph Neural Networks]. La clé du succès de notre stratégie réside dans le fait de pré-entraîner un GNN expressif au niveau des nœuds individuels ainsi que des graphes entiers afin que le GNN puisse apprendre simultanément des représentations utiles locales et globales. Nous étudions systématiquement le pré-entraînement sur plusieurs ensembles de données de classification graphique. Nous constatons que les stratégies naïves, qui pré-entrainent les GNNs au niveau soit des graphes entiers, soit des nœuds individuels, apportent une amélioration limitée et peuvent même entraîner un transfert négatif sur de nombreuses tâches cibles. En revanche, notre stratégie évite le transfert négatif et améliore considérablement la généralisation à travers les tâches cibles, conduisant à une amélioration absolue allant jusqu'à 9,4 % en termes de ROC-AUC par rapport aux modèles non pré-entrainés et atteignant des performances d'état de l'art pour la prédiction des propriétés moléculaires et la prédiction des fonctions protéiques.