13 天前
韩剧对话情感识别用场景转录数据集
{Hyerim Jang, Young-Shin Kang, Soo-Hyung Kim, Guee-Sang Lee, Hyung-Jeong Yang, Eunchae Lim, Sudarshan Pant}
摘要
在对话中理解情感是一项具有挑战性的任务,因为句子往往蕴含着隐含意义,孤立地看待时难以被普遍理解。高效利用上下文信息对于对话中的情感识别至关重要。目前已有许多已发表的数据集,为基于文本的在线消息、聊天机器人以及电影对白等场景提供了上下文信息。然而,这些基于对话的数据集通常通过选择理想化的对话情境进行采集,因此缺乏对话长度和参与者数量等方面的多样性。这使得它们在应用于基于文本的电影剧本情感识别时存在局限性,因为电影场景中往往存在说话人数和语句长度的显著变化。为此,我们提出一个基于韩剧剧本的对话数据集,旨在分析在场景上下文背景下的情感表现。该数据集名为“韩剧场景剧本情感识别数据集”(Korean Drama Scene Transcript dataset for Emotion Recognition, 简称 KD-EmoR),是一个以文本为基础的对话数据集。我们针对电视剧场景中的三类复杂情感——欣快(euphoria)、低落(dysphoria)与中性(neutral)进行了分析,构建了一个可供公开研究的基准数据集。此外,我们设计了一种具备上下文感知能力的深度学习模型,结合说话人层面的上下文与场景上下文信息进行情感分类,在所提出的数据集上取得了0.63的F1分数,验证了模型的有效性。