6 个月前

监督式微调

Tommaso Caselli Valerio Basile Jelena Mitrović Michael Granitzer

摘要

本文提出 HateBERT，一种针对英语仇恨语言检测任务重新训练的 BERT 模型。该模型基于我们收集并公开发布的大型数据集 RAL-E 进行训练，该数据集包含来自因辱骂性、攻击性或仇恨言论而被封禁的 Reddit 社群的英文评论。我们对通用预训练语言模型与通过在被封禁社群帖子上重新训练所得的偏向攻击性语言的模型版本，在三个英语数据集上进行了详细的对比实验，涵盖冒犯性语言、攻击性语言及仇恨言论检测任务。实验结果表明，在所有数据集上，HateBERT 均显著优于对应的通用 BERT 模型。此外，我们还开展了一系列实验，系统比较了通用预训练语言模型与其对应的攻击性语言偏向版本在不同数据集间的迁移性能，结果表明模型的可迁移性受到标注现象之间兼容性的影响。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

监督式微调

Tommaso Caselli Valerio Basile Jelena Mitrović Michael Granitzer

摘要

本文提出 HateBERT，一种针对英语仇恨语言检测任务重新训练的 BERT 模型。该模型基于我们收集并公开发布的大型数据集 RAL-E 进行训练，该数据集包含来自因辱骂性、攻击性或仇恨言论而被封禁的 Reddit 社群的英文评论。我们对通用预训练语言模型与通过在被封禁社群帖子上重新训练所得的偏向攻击性语言的模型版本，在三个英语数据集上进行了详细的对比实验，涵盖冒犯性语言、攻击性语言及仇恨言论检测任务。实验结果表明，在所有数据集上，HateBERT 均显著优于对应的通用 BERT 模型。此外，我们还开展了一系列实验，系统比较了通用预训练语言模型与其对应的攻击性语言偏向版本在不同数据集间的迁移性能，结果表明模型的可迁移性受到标注现象之间兼容性的影响。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供