
科学的調査に使用されるソフトウェアに関する知識は、結果の出自(provenance)の把握、開発者への貢献を評価するためのソフトウェアインパクトの測定、および一般的な文献計量学的ソフトウェア引用分析の観点から、さまざまな理由で必要不可欠である。さらに、ソフトウェアおよびソースコードがどの程度、どのように公開されているかに関する情報を提供することは、科学分野におけるオープンソースソフトウェアの現状と役割を評価する上で不可欠となる。このような分析は手動で実施可能であるが、大規模な分析を行うためには、情報抽出およびリンクの自動化手法の適用が不可欠となる。本論文では、社会科学分野の51,000編以上の科学論文から抽出されたソフトウェアの言及情報を含む知識グラフ「SoftwareKG」を提示する。本研究では、遠隔的・弱教師あり学習アプローチにより作成された銀標準コーパスと、手動アノテーションにより作成された金標準コーパスを用いて、LSTMベースのニューラルネットワークを訓練し、科学論文におけるソフトウェアの言及を識別するモデルを構築した。その結果、正確な一致(exact match)においてFスコア0.82の認識率を達成した。これにより、133,000件以上のソフトウェア言及を同定した。エンティティの曖昧性解消には、パブリックドメインの知識ベースであるDBpediaを活用した。さらに、本知識グラフのエンティティをMicrosoft Academic Knowledge Graph、Software Ontology、Wikidataといった他の知識ベースとリンクさせた。最後に、SoftwareKGが社会科学におけるソフトウェアの役割を評価する上でどのように活用できるかを実例を用いて示した。