8 个月前

自然语言处理

自然语言处理

Corentin Duchêne Henri Jamet Pierre Guillaume Réda Dehak

摘要

社交媒体上的有毒评论检测对于内容审核至关重要。本文在高度偏斜的多标签仇恨言论数据集上比较了多种不同的模型。我们在比较中考虑了推理时间以及多个用于衡量性能和偏差的指标。研究结果表明，无论模型大小、优化程度或预训练所使用的语言如何，所有基于BERT的模型表现相似。与任何一种BERT相比，RNN在推理速度上快得多。BiLSTM在性能和推理时间之间仍是一个良好的折衷方案。采用Focal Loss的RoBERTa在偏差和AUROC（Area Under the Receiver Operating Characteristic Curve）方面表现出最佳性能。然而，DistilBERT不仅具有较高的AUROC，而且推理时间较短。所有模型都受到身份关联偏差的影响，其中BERT、RNN和XLNet对这种偏差的敏感度低于CNN和紧凑卷积 Transformer （Compact Convolutional Transformers）。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

自然语言处理

自然语言处理

Corentin Duchêne Henri Jamet Pierre Guillaume Réda Dehak

摘要

社交媒体上的有毒评论检测对于内容审核至关重要。本文在高度偏斜的多标签仇恨言论数据集上比较了多种不同的模型。我们在比较中考虑了推理时间以及多个用于衡量性能和偏差的指标。研究结果表明，无论模型大小、优化程度或预训练所使用的语言如何，所有基于BERT的模型表现相似。与任何一种BERT相比，RNN在推理速度上快得多。BiLSTM在性能和推理时间之间仍是一个良好的折衷方案。采用Focal Loss的RoBERTa在偏差和AUROC（Area Under the Receiver Operating Characteristic Curve）方面表现出最佳性能。然而，DistilBERT不仅具有较高的AUROC，而且推理时间较短。所有模型都受到身份关联偏差的影响，其中BERT、RNN和XLNet对这种偏差的敏感度低于CNN和紧凑卷积 Transformer （Compact Convolutional Transformers）。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供