2달 전
Lbl2Vec: 사전 정의된 주제에 대한 감독되지 않은 문서 검색을 위한 임베딩 기반 접근법
Tim Schopf; Daniel Braun; Florian Matthes

초록
본 논문에서는 라벨이 부착되지 않은 문서 데이터셋에서 사전 정의된 주제의 문서를 비지도 학습 접근법을 사용하여 검색하는 작업을 다룹니다. 제안된 비지도 학습 접근법은 각 주제를 설명하는 몇 개의 키워드만 필요하며, 라벨이 부착된 문서는 필요하지 않습니다. 기존 접근법들은 대량의 추가적으로 인코딩된 세계 지식이나 용어-문서 빈도에 크게 의존했습니다. 반면에, 우리는 라벨이 부착되지 않은 문서 데이터셋에서 단독으로 학습하여 키워드로 설명된 주제와 의미적으로 유사한 문서를 찾기 위한 공동 임베딩 문서 및 단어 벡터를 학습하는 방법을 소개합니다. 제안된 방법은 거의 모든 텍스트 전처리가 필요하지 않지만, 관련성이 높은 문서를 검색하는데 효과적입니다. 공개되어 널리 사용되는 데이터셋에서 서로 다른 사전 정의된 주제의 문서를 연속적으로 검색할 때, 한 데이터셋에서는 수신자 운영 특성 곡선 아래 면적(AUC) 평균값이 0.95, 다른 데이터셋에서는 0.92를 달성하였습니다. 또한, 우리의 방법은 사전에 라벨을 할당하지 않고도 다중 클래스 문서 분류에 활용될 수 있습니다. 비지도 분류 기준과 비교했을 때, 각각의 데이터셋에서 F1 점수가 76.6에서 82.7로, 61.0에서 75.1로 증가하였습니다. 우리의 접근법을 쉽게 재현할 수 있도록, 개발한 Lbl2Vec 코드를 3-Clause BSD 라이선스 하에 사용 가능한 도구로 공개합니다.