
摘要
主观偏见检测在宣传内容识别、内容推荐、情感分析以及偏见中和等应用中具有重要意义。这种偏见通常通过具有煽动性的词汇和表达方式、对事实提出质疑以及预设某种观点为真等方式在自然语言中体现。本文基于BERT模型,在维基百科中立性语料库(Wiki Neutrality Corpus, WNC)上开展了一系列全面的实验,以检测主观偏见。该语料库包含36万条标注样本,均来自维基百科编辑中移除各类偏见行为的记录。此外,本文提出了一种基于BERT的集成模型,其性能显著优于当前最先进的方法(如BERT_large),F1得分提升了5.6个百分点。