要約
既存の大多数の研究は、英語、スペイン語、中国語、日本語など人気の高い言語に焦点を当てているが、6000万人以上の母語話者がいるウルドゥー語については、その関心が限定的である。本論文では、こうしたリソースが乏しい言語であるウルドゥー語における感情表現を分析するための深層学習モデルを構築する。また、スポーツ、食事、ソフトウェア、政治、エンタメといったトピックに関する566スレッドから抽出した10,008件のレビューから構成されるオープンソースのコーパスを構築した。本研究の目的は二つである。(a) ウルドゥー語における感情分析研究を支援するための手動アノテーション付きコーパスの構築、および (b) そのコーパスを用いて最新のモデル性能を評価すること。評価のため、長短期記憶(LSTM)、再帰的畳み込みニューラルネットワーク(RCNN)、ルールベース法、N-gram、サポートベクターマシン(SVM)、畳み込みニューラルネットワーク(CNN)、およびLSTMを用いた二値分類および三値分類の実験を行った。その結果、RCNNモデルが二値分類において84.98%、三値分類において68.56%の精度を達成し、従来のモデルを上回った。本研究で開発したコーパスおよびコードをオープンソースとして公開することで、同分野の他の研究者による研究を支援することを目的としている。