
摘要
在线社交媒体充斥着大量冒犯性与仇恨言论,鉴于每秒生成的帖子数量庞大,亟需实现其自动检测。然而,构建高质量的人工标注数据集在此任务中极为困难且成本高昂,尤其因为非冒犯性内容远多于冒犯性内容。相比之下,未标注数据则极为丰富,获取也更加便捷和经济。在此背景下,可采用自训练(self-training)方法,利用弱标签样本扩充训练数据量。近年来提出的“噪声型”自训练方法引入了文本数据增强技术,以保障模型预测的一致性,并提升对噪声数据及对抗攻击的鲁棒性。本文在五种不同规模的预训练BERT模型上,结合三种不同的文本数据增强技术,对默认自训练与噪声型自训练方法进行了实验比较。实验在两个用于检测冒犯性及仇恨言论的数据集上进行,结果表明:(i)无论模型规模如何,自训练方法均能持续提升性能,在两个数据集上F1-macro指标最高提升达+1.5%;(ii)尽管噪声型自训练在类似任务中表现良好,但在冒犯性与仇恨言论识别任务中,其性能反而低于默认自训练方法,即使采用了如回译(backtranslation)等最先进的数据增强技术,这一现象仍持续存在。