12 天前

基于多视角的社区问答网站内容审核操作建议方法

{Mohammadamin Fazli, Jafar Habibi, Issa Annamoradnejad}
摘要

在热门问答网站上,每天都有成千上万的新问题被发布,因此亟需自动化且准确的软件解决方案来替代人工审核。本文针对问答社区中依赖众包方式进行内容审核所存在的关键缺陷,展示了利用最新机器学习模型实现审核自动化的能力。从技术角度来看,我们提出了一种多视角方法,通过生成三组不同的特征,从三个不同维度对问题进行分析:(1)基于BERT的回归模型提取的问题相关特征;(2)基于命名实体识别(Named Entity Recognition, NER)模型提取的上下文相关特征;(3)通过统计与分析方法获得的一般词汇特征。最后,我们采用梯度提升分类器(Gradient Boosting Classifier)对审核操作进行预测。为评估模型性能,我们构建了一个新的数据集,包含60,000条来自Stack Overflow的问题,并将其标注为三类审核操作。在该新数据集上进行的交叉验证结果显示,本方法在多分类任务中达到了95.6%的准确率,显著优于所有现有最先进模型及以往已发表的模型。实验结果充分表明,我们所设计的特征生成模块对分类器整体性能具有显著影响。

基于多视角的社区问答网站内容审核操作建议方法 | 最新论文 | HyperAI超神经