DeepWalk : Apprentissage en ligne des représentations sociales

Nous présentons DeepWalk, une nouvelle approche pour l'apprentissage de représentations latentes des sommets dans un réseau. Ces représentations latentes codent les relations sociales dans un espace vectoriel continu, ce qui facilite leur exploitation par des modèles statistiques. DeepWalk généralise les récentes avancées en modélisation linguistique et en apprentissage non supervisé de caractéristiques (ou apprentissage profond) à partir de séquences de mots aux graphes. DeepWalk utilise des informations locales obtenues à partir de marches aléatoires tronquées pour apprendre des représentations latentes en traitant les marches comme l'équivalent de phrases.Nous démontrons l'efficacité des représentations latentes de DeepWalk sur plusieurs tâches de classification multi-étiquettes dans des réseaux sociaux tels que BlogCatalog, Flickr et YouTube. Nos résultats montrent que DeepWalk surpassent des méthodes de référence difficiles à battre, qui ont une vue globale du réseau, particulièrement en présence d'informations manquantes. Les représentations de DeepWalk peuvent fournir des scores $F_1$ jusqu'à 10% plus élevés que ceux des méthodes concurrentes lorsque les données étiquetées sont rares. Dans certaines expériences, les représentations de DeepWalk surpassent toutes les méthodes de référence tout en utilisant 60% moins de données d'entraînement.DeepWalk est également évolutif. Il s'agit d'un algorithme d'apprentissage en ligne qui génère des résultats incrémentaux utiles et peut être parallélisé facilement. Ces qualités le rendent adapté à une large gamme d'applications pratiques telles que la classification de réseaux et la détection d'anomalies.