Lernen mehrdimensionaler Darstellungen von Forschungsmustern in bibliografischen Netzwerken
Diese Studie zielt darauf ab, Forschungsmuster bibliografischer Entitäten (z. B. Forscher, Publikationen und Veranstaltungen) durch Vektoren fester Länge darzustellen. Bibliografische Netzwerkstrukturen, die auf diesen Entitäten basieren, sind äußerst vielfältig, und diese Vielfalt nimmt bei herausragenden Entitäten noch weiter zu. Dadurch erhalten trotz ihrer hohen Anzahl herausragende Entitäten nur minimale Lernmöglichkeiten, während Leistungsschwache überrepräsentiert sind. Um dieses Problem zu lösen, wird nicht mehr die individuelle Darstellung einzelner Entitäten mit hoher Präzision angestrebt, sondern vielmehr die Repräsentation der zugrunde liegenden Forschungsmuster. Zunächst beschreiben wir die Strukturen, die auf den Entitäten basieren, mittels des Weisfeiler–Lehman-(WL)-Relabeling-Prozesses. Jeder durch diesen Prozess generierte Teilgraph liefert Informationen über Forscher, Art der von ihnen veröffentlichten Arbeiten, Qualität der Veröffentlichungsveranstaltungen und Typen ihrer Koautoren. Wir gehen davon aus, dass ein Teilgraph die Forschungsmuster bibliografischer Entitäten – beispielsweise die Präferenz eines Forschers, entweder wenige hochwirksame Arbeiten oder zahlreiche Arbeiten mittlerer Wirkung zu publizieren – widerspiegelt. Anschließend vereinfachen wir die Teilgraphen auf mehreren Detaillierungsstufen. Ursprüngliche Teilgraphen repräsentieren die Individualität der Entitäten, während vereinfachte Teilgraphen Entitäten darstellen, die ähnliche Forschungsmuster aufweisen. Darüber hinaus gleichen vereinfachte Teilgraphen die Lernchancen von Hochleistern und Niedrigleistern aus, indem sie mit beiden Entitäten-Typen gemeinsam auftreten. Die Teilgraphen werden mittels des Skip-Gram-Verfahrens eingebettet. Falls die Ergebnisse dieser Einbettung die Forschungsmuster der Entitäten tatsächlich widerspiegeln, sollten die erhaltenen Vektoren in der Lage sein, verschiedene Aspekte der Forschungsleistung sowohl kurz- als auch langfristig zu repräsentieren, unabhängig von der Leistung der jeweiligen Entitäten. Daher führten wir Experimente durch, um 23 Leistungsindikatoren über vier Zeitperioden für vier Leistungsgruppen (obere 1 %, 5 %, 10 % und alle Entitäten) ausschließlich anhand der Vektorrepräsentationen vorherzusagen. Das vorgeschlagene Modell übertraf die bestehenden Netzwerkeinbettungsmethoden sowohl hinsichtlich Genauigkeit als auch Varianz.