
テキスト内の感情を検出する分野では、顕著な進展が見られてきたが、発話レベルの感情認識(Utterance-Level Emotion Recognition, ULER)においては、依然として解決すべき課題が多数存在する。本稿では、対話システムにおけるULERに関するいくつかの課題に取り組む。第一に、同じ発話でも、文脈や発話者によって異なる感情を表現しうる点である。第二に、長距離の文脈情報を効果的に捉えることが困難である点である。第三に、従来のテキスト分類問題とは異なり、このタスクを支えるデータセットが限られており、その多くは十分な会話データや発話データを含んでいない点である。これらの課題に対処するため、我々は階層型Transformerフレームワークを提案する(本稿における「Transformer」という用語は、他の研究の説明を除き、通常はTransformerのエンコーダ部分を指す)。このフレームワークでは、下位層のTransformerにより単語レベルの入力をモデル化し、上位層のTransformerにより発話レベルの埋め込みの文脈情報を捉える。下位層には、事前学習済み言語モデルであるBERT(Bidirectional Encoder Representations from Transformers)を採用しており、これにより外部データをモデルに組み込むこととなり、データ不足の問題を一定程度緩和する。さらに、本研究では初めて、発話者埋め込み(speaker embeddings)をモデルに導入し、発話者間の相互作用を捉える能力を付与した。3つの対話感情データセット(Friends、EmotionPush、EmoryNLP)における実験結果から、提案する階層型Transformerネットワークモデルが、各データセットにおいて、最先端手法と比較して、それぞれ1.98%、2.83%、3.94%のマクロF1スコアの向上を達成したことが示された。