Untersuchung der Softwarenutzung in den Sozialwissenschaften: Ein Ansatz basierend auf Wissensgraphen

Das Wissen über die in wissenschaftlichen Untersuchungen eingesetzten Software-Tools ist aus verschiedenen Gründen notwendig, darunter die Herkunft der Ergebnisse, die Messung des Einflusses von Software zur Attribution der Entwickler sowie die bibliometrische Analyse von Software-Zitierungen im Allgemeinen. Darüber hinaus ermöglicht die Bereitstellung von Informationen darüber, ob und wie Software sowie der Quellcode verfügbar sind, eine Einschätzung des Zustands und der Rolle von Open-Source-Software in der Wissenschaft insgesamt. Während solche Analysen manuell durchgeführt werden können, erfordern großskalige Untersuchungen die Anwendung automatisierter Methoden zur Informationsextraktion und -verknüpfung. In diesem Beitrag stellen wir SoftwareKG vor – ein Wissensgraph, der Informationen über Software-Nennungen aus über 51.000 wissenschaftlichen Artikeln aus den Sozialwissenschaften enthält. Zur Schulung eines auf LSTM basierenden neuronalen Netzwerks, das Software-Nennungen in wissenschaftlichen Artikeln identifiziert, wurden eine Silber-Standard-Korpus, der mittels einer distanzierten und schwach überwachten Methode erstellt wurde, sowie ein Gold-Standard-Korpus, das durch manuelle Annotation entstanden ist, verwendet. Das Modell erreicht eine Erkennungsrate von 0,82 F-Score bei exakten Übereinstimmungen. Als Ergebnis konnten mehr als 133.000 Software-Nennungen identifiziert werden. Zur Entitätsentstörung nutzten wir die öffentliche Wissensbasis DBpedia. Zudem verknüpften wir die Entitäten des Wissensgraphen mit weiteren Wissensbasen wie dem Microsoft Academic Knowledge Graph, der Software Ontology und Wikidata. Abschließend zeigen wir, wie SoftwareKG genutzt werden kann, um die Rolle von Software in den Sozialwissenschaften zu bewerten.