스캔된 전자 논문 및 석사학위논문에서 시각적 특징을 포함한 자동 메타데이터 추출

전자학위논문(Electronic Theses and Dissertations, ETDs)은 인용 네트워크 분석 및 연구 동향 예측과 같은 다양한 디지털 라이브러리 작업에 활용할 수 있는 분야 지식을 포함하고 있다. 스케일이 가능한 디지털 라이브러리 검색 엔진을 구축하기 위해서는 자동 메타데이터 추출이 매우 중요하다. 기존의 대부분의 방법들은 디지털 원본 문서를 대상으로 설계되어 있어, 전자학위논문과 같은 스캔된 문서에서 메타데이터를 추출하는 데 자주 실패한다. 기존의 시퀀스 태깅 기법은 주로 텍스트 기반 특징에 의존한다. 본 논문에서는 텍스트 기반 특징과 시각적 특징을 결합한 조건부 확률장(Conditional Random Field, CRF) 모델을 제안한다. 제안된 모델의 강건성을 검증하기 위해 기존 코퍼스를 확장하고, 인간 검증된 메타데이터를 포함하는 새로운 지표 코퍼스를 구성하였으며, 이는 총 500건의 전자학위논문 표지로 구성되어 있다. 실험 결과, 시각적 특징을 포함한 CRF 모델이 히우리스틱 방법과 텍스트 기반 특징만을 사용한 CRF 모델보다 우수한 성능을 보였다. 제안된 모델은 7개의 메타데이터 필드에서 F1 측정값이 81.3%에서 96% 사이의 성능을 달성하였다. 관련 데이터와 소스 코드는 각각 Google Drive(https://tinyurl.com/y8kxzwrp)와 GitHub 리포지토리(https://github.com/lamps-lab/ETDMiner/tree/master/etd_crf)에서 공개되어 있다.