2달 전

ShotgunWSD: DNA 시퀀싱에서 영감을 받은 전역 단어 의미 구분을 위한 비지도 알고리즘

Andrei M. Butnaru; Radu Tudor Ionescu; Florentina Hristea
ShotgunWSD: DNA 시퀀싱에서 영감을 받은 전역 단어 의미 구분을 위한 비지도 알고리즘
초록

본 논문에서는 문서 수준에서 단어 의미 구분(WSD)을 위한 새로운 비지도 알고리즘을 제시합니다. 이 알고리즘은 유전학 분야에서 널리 사용되는 전체 게놈 시퀀싱 방법인 샷건 시퀀싱 기술에서 영감을 받았습니다. 제안된 WSD 알고리즘은 세 가지 주요 단계를 기반으로 합니다. 첫 번째 단계에서는 문서에서 선택된 짧은 문맥 창(최대 10개의 단어)에 대해 강제 탐색 WSD 알고리즘을 적용하여 각 창에 대한 가능성이 높은 의미 구성 목록을 생성합니다. 두 번째 단계에서는 이러한 지역적 의미 구성들이 접미사와 접두사 일치를 바탕으로 더 긴 복합적 구성으로 조립됩니다. 생성된 구성들은 길이 순으로 순위가 매겨지고, 각 단어의 의미는 해당 단어가 등장하는 상위 k개의 구성만을 고려한 투표 방식에 따라 선택됩니다. 우리는 제안된 알고리즘을 다른 최신 비지도 WSD 알고리즘들과 비교하여 더 우수한 성능을 보임을 입증하며, 때로는 매우 큰 차이를 보입니다. 또한, 한 데이터 세트에서 가장 일반적인 의미(Most Common Sense, MCS) 베이스라인보다 더 우수한 성능을 낼 수 있음을 보였습니다. 더욱이, 우리의 알고리즘은 매개변수의 수가 매우 적고, 매개변수 조정에 견고하며, 다른 생물학적으로 영감받은 방법과 달리 결정론적인 해답(무작위 선택이 포함되지 않음)을 제공합니다.

ShotgunWSD: DNA 시퀀싱에서 영감을 받은 전역 단어 의미 구분을 위한 비지도 알고리즘 | 최신 연구 논문 | HyperAI초신경