
단어 의미 유도(Word Sense Induction, WSI) 또는 단어의 여러 의미나 용법을 자동으로 발견하는 작업은 세 가지 주요 과제를 가지고 있습니다: 도메인 적응성, 새로운 의미 검출, 그리고 의미 단위의 유연성입니다. 현재 잠재 변수 모델들은 첫 두 가지 과제를 해결하는 것으로 알려져 있지만, 단어마다 매우 다르게 나타나는 다양한 의미 단위에 대해 유연하지 않습니다. 예를 들어, 'aardvark'는 하나의 의미만을 가지고 있는 반면 'play'는 50개 이상의 의미를 가집니다. 현재 모델들은 의미 개수를 유도하기 위해 하이퍼파라미터 조정이나 비모수적 유도가 필요하지만, 우리는 이 두 방법 모두 효과적이지 않다고 판단하였습니다. 따라서 우리는 이러한 요구 사항을 제거하고 의미 단위 문제를 해결하기 위해 AutoSense라는 잠재 변수 모델을 제안합니다. 이 모델은 다음과 같은 두 가지 관찰에 기반합니다: (1) 의미는 주제들의 분포로 표현되며, (2) 의미는 대상 단어와 그 주변 단어 사이의 짝짓기를 생성합니다. 이러한 관찰은 (a) 쓸모없는 의미들을 제거하고, (b) 추가적으로 세부적인 단어 의미를 유도함으로써 문제를 완화시킵니다. 실험 결과, 인기 있는 WSI 데이터셋에서 최신 모델들보다 크게 향상된 성능을 보였습니다. 또한 AutoSense가 단어의 적절한 의미 단위를 학습할 수 있음을 보여주었습니다. 마지막으로, 의미 단위 문제가 더욱 명확하게 나타나는 비지도 저자 이름 구분 작업에 AutoSense를 적용하여 경쟁 모델들보다 우수함을 입증하였습니다. 우리의 데이터와 코드는 다음 링크에서 공유됩니다: https://github.com/rktamplayo/AutoSense.