17일 전
중량 꼬리 표현, 텍스트 극성 분류 및 데이터 증강
Hamid Jalalzai, Pierre Colombo, Chloé Clavel, Eric Gaussier, Giovanna Varni, Emmanuel Vignon, Anne Sabourin

초록
자연어 처리 분야에서 텍스트 표현을 위한 주류 접근 방식은 방대한 텍스트 코퍼스에서 임베딩을 학습하는 데 기반을 두며, 이러한 임베딩은 조합성(compositionality)과 거리 보존(distance preservation)과 같은 유용한 성질을 갖는다. 본 논문에서는 분포 꼬리(distributional tails)에 대해 바람직한 정규성 성질을 갖는 중량 꼬리(heavy-tailed) 임베딩을 학습하는 새로운 방법을 제안한다. 이 방법을 통해 다변량 극단가치 이론(multivariate extreme value theory)의 프레임워크를 활용하여 분포의 주된 집합에서 멀리 떨어진 점들을 분석할 수 있다. 특히, 제안된 임베딩의 꼬리 부분에 특화된 분류기를 도출하였으며, 이 분류기는 기준 모델(baseline)을 초월하는 성능을 보였다. 이 분류기는 척도 불변성(scale invariance) 성질을 가지며, 이를 활용하여 레이블 보존(label preserving) 데이터 증강을 위한 새로운 텍스트 생성 방법을 제안하였다. 합성 및 실제 텍스트 데이터에 대한 수치 실험을 통해 제안된 프레임워크의 실용성과 타당성을 입증하였으며, 긍정적 또는 부정적 감정과 같은 특정 속성을 제어할 수 있는 의미 있는 문장을 생성함을 확인하였다.