17일 전

PatternRank: 사전 학습된 언어 모델과 품사 정보를 활용한 비지도 키워드 추출

Tim Schopf, Simon Klimek, Florian Matthes
PatternRank: 사전 학습된 언어 모델과 품사 정보를 활용한 비지도 키워드 추출
초록

키워드 추출은 주어진 텍스트에서 가장 관련성이 높은 소량의 구문을 자동으로 선택하는 과정이다. 기존의 지도 학습 기반 키워드 추출 방법은 대량의 레이블링된 학습 데이터를 필요로 하며, 학습 데이터의 도메인 외에서는 성능이 저하되는 경향이 있다. 본 논문에서는 사전 학습된 언어 모델과 품사 정보를 활용하여 단일 문서에서 비지도 방식으로 키워드를 추출하는 PatternRank를 제안한다. 실험 결과, PatternRank는 기존 최고 성능 기법들보다 더 높은 정밀도(Precision), 재현율(Recall), F1 점수를 달성함을 확인하였다. 또한, 후보 키워드 추출을 위한 품사 패턴을 간편하게 수정할 수 있도록 해주는 KeyphraseVectorizers 패키지를 제안하며, 이는 본 방법을 어떠한 도메인에도 쉽게 적응할 수 있도록 한다.