18일 전
우르두어 온라인 리뷰를 위한 감성 분석: 딥러닝 모델 활용
{Raheel Nawaz, Naif Radi Aljohani, Salem Alelyani, Rabeeh Ayaz Abbasi, Faisal Bukhari, Rao Muhammad Adeel Nawab, Farooq Zaman, Saeed-Ul Hassan, Raheem Sarwar, Zainab Mahmood, qra Safder}
초록
기존의 대부분의 연구는 영어, 스페인어, 중국어, 일본어 등 인기 있는 언어에 집중되어 있으나, 6,000만 명 이상의 모국어 사용자가 있는 우르두어에 대해서는 그에 비해 제한된 관심이 기울어져 왔다. 본 연구에서는 이러한 자원이 부족한 언어인 우르두어에서 표현되는 감성에 대해 심층 학습 모델을 개발한다. 스포츠, 음식, 소프트웨어, 정치, 엔터테인먼트 등 다양한 주제에 대해 566개의 온라인 스레드에서 수집한 총 10,008건의 리뷰를 포함하는 오픈소스 코퍼스를 구축하였다. 본 연구의 목적은 두 가지이다. (a) 우르두어 감성 분석 연구를 위한 인간 주석이 부여된 코퍼스 구축; (b) 구축한 코퍼스를 활용하여 최신 모델의 성능을 정량적으로 평가하는 것. 평가를 위해 이진 분류 및 삼진 분류 실험을 수행하였으며, 긴 단기 기억(LSTM), 순환 컨볼루션 신경망(RCNN), 규칙 기반 모델, N-그램, 서포트 벡터 머신(SVM), 컨볼루션 신경망(CNN) 및 LSTM 모델을 활용하였다. 그 결과, RCNN 모델이 이진 분류에서 84.98%의 정확도, 삼진 분류에서 68.56%의 정확도를 기록하며 기존 표준 모델들을 상회하였다. 본 연구와 동일한 분야에서 활동하는 다른 연구자들이 보다 쉽게 접근할 수 있도록, 본 연구에서 개발한 코퍼스 및 코드를 모두 오픈소스로 공개하였다.