17 天前

社会科学中软件使用情况的探究:知识图谱方法

David Schindler, Benjamin Zapilko, Frank Krüger
社会科学中软件使用情况的探究:知识图谱方法
摘要

在科学调查中使用的软件知识对于多种目的至关重要,包括研究成果的可追溯性、衡量软件影响力以合理归因开发者,以及开展更广泛的软件引用文献计量分析。此外,提供有关软件及其源代码是否可用及其使用方式的信息,有助于评估开源软件在科学领域中的现状与作用。尽管此类分析可手动完成,但大规模分析则需要依赖自动化信息提取与关联技术。本文提出SoftwareKG——一个包含来自51,000余篇社会科学领域科学论文中软件提及信息的知识图谱。我们采用基于远程监督与弱监督方法构建的“银标准”语料库,以及通过人工标注建立的“金标准”语料库,训练了一个基于LSTM的神经网络模型,用于识别科学论文中的软件提及。该模型在精确匹配下的F1得分为0.82。基于此,我们共识别出超过13.3万条软件提及。在实体消歧方面,我们利用公共领域知识库DBpedia进行处理;同时,将知识图谱中的实体与其他知识库(包括Microsoft Academic Knowledge Graph、Software Ontology以及Wikidata)进行了链接。最后,本文展示了SoftwareKG在评估软件在社会科学领域中作用方面的实际应用潜力。