Phraseformer: Transformer 및 그래프 임베딩을 이용한 다중모달 핵심어구 추출

배경: 키워드 추출은 자연어 처리 분야에서 널리 연구되는 주제이다. 키워드는 문서 내에서 가장 관련성 있는 정보를 설명하는 용어를 의미한다. 연구자들이 직면하고 있는 주요 문제는 문서에서 핵심 키워드를 효율적이고 정확하게 추출하는 방법을 찾는 것이다. 그러나 기존의 키워드 추출 방법들은 텍스트 특징과 그래프 특징을 활용해 왔으나, 이러한 특징들을 최적으로 학습하고 통합할 수 있는 모델이 부족한 실정이다.방법: 본 연구에서는 트랜스포머와 그래프 임베딩 기술을 활용하여 다중모달 키어드 추출 방법인 Phraseformer을 제안한다. Phraseformer에서는 각 키워드 후보가 텍스트 학습 표현과 구조 학습 표현을 결합한 벡터로 표현된다. Phraseformer은 최근의 연구 성과인 BERT와 ExEm의 장점을 살려 두 가지 표현을 효과적으로 보존한다. 또한, Phraseformer은 키어드 추출 문제를 분류 작업을 통해 해결하는 시퀀스 레이블링 문제로 설정한다.결과: 본 연구에서는 Inspec, SemEval2010, SemEval2017 세 가지 데이터셋을 대상으로 F1 점수를 기준으로 Phraseformer의 성능을 분석하였다. 또한, Inspec 데이터셋에서 다양한 분류기의 성능을 비교하여 분석하였다. 실험 결과, Phraseformer은 사용된 세 가지 데이터셋 모두에서 기존 방법에 비해 우수한 성능을 보였다. 특히, 랜덤 포레스트 분류기가 모든 분류기 중에서 가장 높은 F1 점수를 기록하였다.결론: BERT와 ExEm의 조합은 더 의미 있는 표현을 가능하게 하며, 단어의 의미를 더 잘 대표할 수 있다. 따라서 Phraseformer은 단일 모달 기반의 기존 방법에 비해 유의미하게 우수한 성능을 발휘한다.