2달 전

범주형 메타데이터 표현을 이용한 맞춤형 텍스트 분류

Jihyeok Kim; Reinald Kim Amplayo; Kyungjae Lee; Sua Sung; Minji Seo; Seung-won Hwang
범주형 메타데이터 표현을 이용한 맞춤형 텍스트 분류
초록

텍스트 분류의 성능은 지능적으로 설계된 신경망 기반 모델을 사용함으로써 크게 향상되었습니다. 특히, 범주형 메타데이터를 추가 정보로 주입하는 모델(예: 감성 분류에서 사용자/제품 정보 사용)이 이러한 발전에 큰 역할을 하였습니다. 이러한 정보는 모델의 일부분(예: 단어 임베딩, 어텐션 메커니즘)을 수정하여 메타데이터에 따라 결과를 맞춤화할 수 있도록 활용되었습니다. 그러나 우리는 현재 범주형 메타데이터를 표현하기 위한 방법들이, 인간의 소비를 위해 설계되었음에도 불구하고, 일반적인 분류 방법에서 주장한 만큼 효과적이지 않다는 것을 관찰하였습니다. 심지어 이러한 방법들은 문장 인코더의 최종 레이어에서 범주형 특성을 간단히 연결하는 것보다도 성능이 떨어지는 경우가 있습니다. 우리는 범주형 특성이 기계용으로 표현하기 어렵다고 추측합니다. 이는 제공되는 맥락이 범주를 간접적으로만 설명하고, 심지어 그러한 맥락조차도 종종 부족하기 때문입니다(특히 꼬리 범주(Tail Category)의 경우). 이를 해결하기 위해, 우리는 다양한 신경망 기반 모델 부분에 범주형 메타데이터를 효과적으로 통합하기 위해 기저벡터(Basis Vectors)를 사용하는 방안을 제안합니다. 이 방법은 특히 범주형 특성의 수가 많은 경우 매개변수의 수를 극적으로 줄이는 효과가 있습니다. 다양한 속성을 가진 여러 데이터셋을 대상으로 한 광범위한 실험을 수행한 결과, 우리의 방법을 통해 모델의 일부분, 아직 탐구되지 않은 부분까지 포함하여 범주형 메타데이터를 더 효과적으로 표현하고 모델의 성능을 크게 향상시킬 수 있음을 확인하였습니다.