17일 전

중량 꼬리 표현, 텍스트 극성 분류 및 데이터 증강

Hamid Jalalzai, Pierre Colombo, Chloé Clavel, Eric Gaussier, Giovanna Varni, Emmanuel Vignon, Anne Sabourin
중량 꼬리 표현, 텍스트 극성 분류 및 데이터 증강
초록

자연어 처리 분야에서 텍스트 표현을 위한 주류 접근 방식은 방대한 텍스트 코퍼스에서 임베딩을 학습하는 데 기반을 두며, 이러한 임베딩은 조합성(compositionality)과 거리 보존(distance preservation)과 같은 유용한 성질을 갖는다. 본 논문에서는 분포 꼬리(distributional tails)에 대해 바람직한 정규성 성질을 갖는 중량 꼬리(heavy-tailed) 임베딩을 학습하는 새로운 방법을 제안한다. 이 방법을 통해 다변량 극단가치 이론(multivariate extreme value theory)의 프레임워크를 활용하여 분포의 주된 집합에서 멀리 떨어진 점들을 분석할 수 있다. 특히, 제안된 임베딩의 꼬리 부분에 특화된 분류기를 도출하였으며, 이 분류기는 기준 모델(baseline)을 초월하는 성능을 보였다. 이 분류기는 척도 불변성(scale invariance) 성질을 가지며, 이를 활용하여 레이블 보존(label preserving) 데이터 증강을 위한 새로운 텍스트 생성 방법을 제안하였다. 합성 및 실제 텍스트 데이터에 대한 수치 실험을 통해 제안된 프레임워크의 실용성과 타당성을 입증하였으며, 긍정적 또는 부정적 감정과 같은 특정 속성을 제어할 수 있는 의미 있는 문장을 생성함을 확인하였다.