11日前
会話における感情認識のための韓国ドラマシーントランスクリプトデータセット
{Hyerim Jang, Young-Shin Kang, Soo-Hyung Kim, Guee-Sang Lee, Hyung-Jeong Yang, Eunchae Lim, Sudarshan Pant}
要約
会話における感情の理解は、文が孤立して見られる場合に一般的に理解されない含意された意味を持つことが多いため、困難なタスクである。会話における感情認識において、文脈情報を効果的に活用することが不可欠である。これまでに発表された多くのデータセットは、テキストベースのオンラインメッセージ、チャットボット、映画対話などの状況における文脈情報を提供している。しかし、こうした対話ベースのデータセットは、理想的な会話状況を選択して収集されているため、対話の長さや参加者数の多様性が乏しく、実際の映画台本におけるテキストベースの感情認識に適さない場合がある。特に、登場人物の数や発話文の長さに大きな変動が生じるシーンでは、既存のデータセットの適用性が限られる。本研究では、韓国テレビドラマの台本に基づく会話データセットを提示し、シーン文脈を考慮した感情分析を行う。本データセットは「感情認識用韓国ドラマシーン台本データセット(KD-EmoR)」と命名され、テキストベースの会話データセットとして、テレビドラマのシーンにおいて「高揚(euphoria)」「抑うつ(dysphoria)」「中立(neutral)」の3種類の複雑な感情を分析することで、今後の研究に向けた公開データセットを構築した。さらに、話者レベルの文脈とシーン文脈を考慮した文脈認識型ディープラーニングモデルを構築し、提案されたデータセット上でF1スコア0.63を達成した。