HyperAIHyperAI
il y a 17 jours

Investiguer l'utilisation du logiciel dans les sciences sociales : une approche par graphe de connaissance

David Schindler, Benjamin Zapilko, Frank Krüger
Investiguer l'utilisation du logiciel dans les sciences sociales : une approche par graphe de connaissance
Résumé

La connaissance du logiciel utilisé dans les investigations scientifiques est essentielle pour diverses raisons, notamment la traçabilité des résultats, la mesure de l’impact du logiciel afin d’attribuer correctement les contributions aux développeurs, ainsi que l’analyse bibliométrique des citations de logiciels en général. En outre, la mise à disposition d’informations concernant la disponibilité du logiciel et de son code source permet d’évaluer l’état et le rôle du logiciel open source dans la science en général. Bien que ces analyses puissent être réalisées manuellement, des études à grande échelle exigent l’application de méthodes automatisées d’extraction et de liaison d’informations. Dans cet article, nous présentons SoftwareKG, un graphe de connaissances contenant des informations sur les mentions de logiciels issues de plus de 51 000 articles scientifiques provenant des sciences sociales. Un corpus de standard silver, construit à l’aide d’une approche de supervision lointaine et faible, ainsi qu’un corpus de standard or, créé par annotation manuelle, ont été utilisés pour entraîner un réseau neuronal basé sur LSTM afin d’identifier les mentions de logiciels dans les articles scientifiques. Le modèle atteint un taux de reconnaissance de 0,82 en score F pour les correspondances exactes. En conséquence, nous avons identifié plus de 133 000 mentions de logiciels. Pour la désambiguïsation des entités, nous avons utilisé la base de connaissances en domaine public DBpedia. En outre, nous avons lié les entités du graphe de connaissances à d’autres bases de connaissances, telles que le Microsoft Academic Knowledge Graph, la Software Ontology et Wikidata. Enfin, nous illustrons comment SoftwareKG peut être utilisé pour évaluer le rôle du logiciel dans les sciences sociales.