2 个月前

一个大型自标注的讽刺语料库

Mikhail Khodak; Nikunj Saunshi; Kiran Vodrahalli
一个大型自标注的讽刺语料库
摘要

我们介绍了自我标注Reddit语料库(Self-Annotated Reddit Corpus,简称SARC),这是一个用于讽刺研究以及训练和评估讽刺检测系统的大型语料库。该语料库包含130万条讽刺陈述,数量是任何先前数据集的10倍,并且还包含大量非讽刺陈述实例,从而支持在平衡和不平衡标签条件下进行学习。此外,每条陈述都是自我标注的——讽刺标签由作者而非独立标注者提供,并附有用户、主题和对话上下文。我们对语料库进行了准确性评估,构建了讽刺检测的基准测试,并评估了基线方法。

一个大型自标注的讽刺语料库 | 最新论文 | HyperAI超神经