7 个月前

摘要

我们介绍了自我标注Reddit语料库（Self-Annotated Reddit Corpus，简称SARC），这是一个用于讽刺研究以及训练和评估讽刺检测系统的大型语料库。该语料库包含130万条讽刺陈述，数量是任何先前数据集的10倍，并且还包含大量非讽刺陈述实例，从而支持在平衡和不平衡标签条件下进行学习。此外，每条陈述都是自我标注的——讽刺标签由作者而非独立标注者提供，并附有用户、主题和对话上下文。我们对语料库进行了准确性评估，构建了讽刺检测的基准测试，并评估了基线方法。

源 PDF