
초록
과학적 조사에서 사용되는 소프트웨어에 대한 지식은 결과의 출처 파악, 개발자에게 기여도를 부여하기 위한 소프트웨어 영향력 측정, 그리고 일반적인 문헌정보학적 소프트웨어 인용 분석 등 다양한 이유에서 필수적이다. 또한 소프트웨어와 소스 코드가 어떤 방식으로 제공되는지에 대한 정보를 제공함으로써, 과학 분야에서 오픈소스 소프트웨어의 현황과 역할을 평가할 수 있다. 이러한 분석은 수작업으로 수행될 수 있지만, 대규모 분석을 위해서는 정보 추출 및 연결을 자동화하는 방법이 필요하다. 본 논문에서는 사회과학 분야의 51,000편 이상의 과학 논문에서 언급된 소프트웨어 정보를 포함하는 지식 그래프인 SoftwareKG를 제안한다. 소프트웨어 언급을 식별하기 위해, 원거리 및 약한 감독 방식으로 생성된 실버 기준 코퍼스와 수작업 주석을 통해 생성된 골드 기준 코퍼스를 활용하여 LSTM 기반의 신경망 모델을 학습시켰다. 이 모델은 정확한 일치 기준에서 0.82의 F-스코어를 달성하였다. 그 결과, 133,000건 이상의 소프트웨어 언급을 식별하였다. 실체 해석(엔티티 디ambi게이션)에는 공공 도메인 지식베이스인 DBpedia를 사용하였으며, 추가적으로 Microsoft Academic 지식 그래프, Software Ontology, Wikidata와 같은 다른 지식베이스와 지식 그래프의 엔티티를 연결하였다. 마지막으로, SoftwareKG가 사회과학 분야에서 소프트웨어의 역할을 평가하는 데 어떻게 활용될 수 있는지에 대해 설명한다.