FRAKE: 융합형 실시간 자동 키워드 추출

키워드 추출은 텍스트의 주요 개념을 가능한 한 정확하게 식별하는 과정이다. 전자 인프라는 매일 수많은 텍스트를 생성하며, 이 거대한 문서량은 인적 자원이 이를 체계적으로 분석하고 관리하는 데 현실적으로 불가능하게 만든다. 그럼에도 불구하고, 이러한 문서들에 효율적이고 효과적으로 접근할 필요는 다양한 목적에서 명확하게 요구된다. 블로그, 뉴스 기사, 기술 노트와 같은 문서는 독자가 키워드나 주제를 중심으로 특정 주제를 이해하고자 하는 목적이 있어 상대적으로 긴 텍스트로 간주된다. 본 연구에서는 그래프 중심성 특성과 텍스트적 특성을 결합한 두 가지 모델의 조합을 활용한 접근법을 제안한다. 제안된 방법은 도출된 후보 키워드 중 최적의 키워드를 추출하기 위해, 도시 중심성(도수 중심성, 중간 중심성, 고유벡터 중심성, 가까움 중심성 등)과 텍스트적 특성(대소문자 구분, 용어 위치, 용어 빈도 정규화, 문장 내 용어 차이, 품사 태깅 등)을 최적의 조합으로 활용한다. 또한 후보 구문 중에서 키워드를 구분하여 별도로 고려하는 시도도 이루어졌다. 제안된 방법의 성능 평가를 위해 Semeval2010, SemEval2017, Inspec, fao30, Thesis100, pak2018, Wikinews 총 7개의 데이터셋을 사용하였으며, 평가 지표로는 정밀도(Precision), 재현율(Recall), F-측정치(F-measure)를 사용하였다. 제안된 방법은 문헌에서 기존에 제시된 방법들과 비교하여 모든 검토된 데이터셋에서 평가 지표 측면에서 훨씬 우수한 성능을 보였다. 특히 F-스코어 지표에서 약 16.9%의 증가를 기록하였으며, 영어로 작성된 Inspec 데이터셋과 외국어로 작성된 Wikinews 데이터셋에서는 더욱 뚜렷한 개선이 관측되었다.