HyperAIHyperAI

Command Palette

Search for a command to run...

一个大型自标注的讽刺语料库

Mikhail Khodak Nikunj Saunshi Kiran Vodrahalli

摘要

我们介绍了自我标注Reddit语料库(Self-Annotated Reddit Corpus,简称SARC),这是一个用于讽刺研究以及训练和评估讽刺检测系统的大型语料库。该语料库包含130万条讽刺陈述,数量是任何先前数据集的10倍,并且还包含大量非讽刺陈述实例,从而支持在平衡和不平衡标签条件下进行学习。此外,每条陈述都是自我标注的——讽刺标签由作者而非独立标注者提供,并附有用户、主题和对话上下文。我们对语料库进行了准确性评估,构建了讽刺检测的基准测试,并评估了基线方法。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供