2달 전

수백만 개의 이모티콘 발생을 활용한 감성, 감정 및 비꼬기 탐지용 다영역 표현 학습

Bjarke Felbo; Alan Mislove; Anders Søgaard; Iyad Rahwan; Sune Lehmann
수백만 개의 이모티콘 발생을 활용한 감성, 감정 및 비꼬기 탐지용 다영역 표현 학습
초록

NLP 작업은 종종 수작업으로 주석화된 데이터의 부족으로 제한됩니다. 소셜 미디어 감성 분석 및 관련 작업에서 연구자들은 이 문제를 해결하기 위해 이모티콘을 이진화하고 특정 해시태그를 원격 감독의 형태로 활용해 왔습니다. 본 논문에서는 원격 감독을 64개의 일반적인 이모티콘 중 하나를 포함하는 12억 4600만 개의 트윗 데이터셋에서 이모티콘 예측을 통해 더 다양한 노이즈 라벨로 확장함으로써 모델이 더 풍부한 표현을 학습할 수 있음을 보여줍니다. 이러한 방법을 통해 단일 사전학습 모델을 사용하여 감성, 감정, 그리고 비꼬기 탐지 벤치마크 데이터셋 8개에서 최고 성능을 달성하였습니다. 우리의 분석 결과는 우리가 사용한 감정 라벨의 다양성이 기존의 원격 감독 접근법보다 성능 향상을 가져왔음을 확인해주고 있습니다.