Réseau hétérogène à cohérence de vue sur les graphes avec peu de nœuds étiquetés
Effectuer un apprentissage transductif sur des graphes avec très peu de données étiquetées — par exemple deux ou trois échantillons par catégorie — est un défi majeur en raison du manque de supervision. Dans les travaux existants, l’apprentissage auto-supervisé basé sur un modèle à vue unique est largement adopté pour traiter ce problème. Toutefois, des observations récentes montrent que les représentations multi-vues d’un même objet partagent des informations sémantiques identiques dans l’espace des caractéristiques de haut niveau. Pour chaque échantillon, nous générons des représentations hétérogènes et utilisons une perte de cohérence entre vues afin de rendre leurs représentations mutuellement cohérentes. La représentation multi-vue inspire également une supervision améliorée de la génération des pseudo-étiquettes grâce à une supervision mutuelle entre les vues. Dans cet article, nous proposons donc un réseau hétérogène à cohérence de vue (VCHN) afin d’apprendre des représentations plus performantes en alignant les sémantiques indépendantes des vues. Plus précisément, VCHN est construit en imposant une contrainte sur les prédictions entre deux vues, permettant ainsi aux paires de vues de s’auto-superviser mutuellement. Pour tirer pleinement parti des informations croisées entre les vues, nous proposons également une nouvelle stratégie d’entraînement visant à générer des pseudo-étiquettes plus fiables, ce qui améliore ainsi les prédictions du modèle VCHN. Des résultats expérimentaux étendus sur trois jeux de données de référence démontrent que notre méthode atteint des performances supérieures à celles des méthodes de pointe dans des taux de données étiquetées très faibles.