9일 전
초전도체 과학 문헌에서 재료 및 특성 자동 추출
Luca Foppiano, Pedro Baptista de Castro, Pedro Ortiz Suarez, Kensei Terashima, Yoshihiko Takano, Masashi Ishii

초록
데이터 기반 재료 과학(재료 인포매틱스) 분야에서 과학 문헌으로부터 재료 및 관련 물성을 자동으로 추출하는 기술에 대한 관심이 높아지고 있다. 본 논문에서는 텍스트에서 초전도체 재료 이름과 관련 물성을 자동으로 추출하기 위한 솔루션인 Grobid-superconductors에 대해 논의한다. 이 모듈은 Grobid 프레임워크 기반으로 개발되었으며, 기계 학습과 히우리스틱 기법을 복합적으로 활용한 다단계 아키텍처를 채택하여 원시 텍스트 또는 PDF 문서 형태의 입력 데이터를 지원한다. Grobid-superconductors를 활용하여, 37,700편의 논문에서 추출한 총 40,324건의 재료 및 물성 데이터를 포함하는 ‘SuperCon2’ 데이터베이스를 구축하였다. 재료(또는 시료) 정보는 이름, 화학식, 재료 계열로 표현되며, 형상, 도핑 여부, 성분의 대체 변수, 기판 정보 등 부가 정보를 함께 포함한다. 물성 정보에는 초전도 임계 온도(Tc)가 포함되며, 가능할 경우 Tc 측정 시 적용된 압력과 측정 방법도 함께 기록된다.