HyperAIHyperAI

Command Palette

Search for a command to run...

在Civil Comments数据集上的有毒评论分类基准

Corentin Duchêne Henri Jamet Pierre Guillaume Réda Dehak

摘要

社交媒体上的有毒评论检测对于内容审核至关重要。本文在高度偏斜的多标签仇恨言论数据集上比较了多种不同的模型。我们在比较中考虑了推理时间以及多个用于衡量性能和偏差的指标。研究结果表明,无论模型大小、优化程度或预训练所使用的语言如何,所有基于BERT的模型表现相似。与任何一种BERT相比,RNN在推理速度上快得多。BiLSTM在性能和推理时间之间仍是一个良好的折衷方案。采用Focal Loss的RoBERTa在偏差和AUROC(Area Under the Receiver Operating Characteristic Curve)方面表现出最佳性能。然而,DistilBERT不仅具有较高的AUROC,而且推理时间较短。所有模型都受到身份关联偏差的影响,其中BERT、RNN和XLNet对这种偏差的敏感度低于CNN和紧凑卷积 Transformer (Compact Convolutional Transformers)。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供