HyperAIHyperAI
il y a 11 jours

Apprentissage de représentations multi-résolution de motifs de recherche dans les réseaux bibliographiques

{Jason J. Jung, Hyeon-Ju Jeon, O-Joun Lee}
Résumé

Cette étude vise à représenter les schémas de recherche des entités bibliographiques (par exemple, chercheurs, articles, conférences) à l’aide de vecteurs de longueur fixe. Les structures de réseaux bibliographiques fondées sur ces entités sont extrêmement diverses, et cette diversité s’accroît particulièrement pour les entités de haut niveau. Ainsi, malgré leur volume important, ces entités de haut rendement bénéficient de très peu d’opportunités d’apprentissage, tandis que les entités à faible performance sont excessivement sur-représentées. Pour résoudre ce problème, cette étude se concentre sur la représentation des schémas de recherche des entités plutôt que sur la description précise de chaque entité individuelle. Premièrement, nous modélisons les structures enracinées dans les entités à l’aide du processus de réétiquetage de Weisfeiler–Lehman (WL). Chaque sous-graphe généré par ce processus fournit des informations sur les chercheurs, les types d’articles qu’ils ont publiés, les standards des conférences où ces articles ont été publiés, ainsi que les types de leurs collaborateurs. Nous supposons qu’un sous-graphe reflète les schémas de recherche des entités bibliographiques, tels que la préférence d’un chercheur pour publier un petit nombre d’articles très influents ou un grand nombre d’articles d’impact modéré. Ensuite, nous simplifions ces sous-graphes selon plusieurs niveaux de granularité. Les sous-graphes originaux capturent l’individualité des entités, tandis que les sous-graphes simplifiés représentent des entités partageant les mêmes schémas de recherche. De plus, les sous-graphes simplifiés équilibrent les opportunités d’apprentissage entre les entités à haut et à faible rendement en co-occurrence avec les deux types d’entités. Nous appliquons ensuite une méthode d’embedding de type Skip-Gram aux sous-graphes. Si les résultats de l’embedding reflètent effectivement les schémas de recherche des entités, les vecteurs obtenus devraient être capables de représenter divers aspects du rendement de recherche à court et à long terme, indépendamment du niveau de performance de l’entité. Par conséquent, nous avons mené des expériences visant à prédire 23 indicateurs de performance sur quatre périodes temporelles, pour quatre groupes de performance (les 1 %, 5 %, 10 % supérieurs et l’ensemble des entités), en utilisant uniquement les représentations vectorielles. Le modèle proposé a surpassé les méthodes existantes d’embedding de réseaux en termes de précision et de variance.

Apprentissage de représentations multi-résolution de motifs de recherche dans les réseaux bibliographiques | Articles de recherche récents | HyperAI