6 个月前

摘要

在线仇恨言论是当今社会日益凸显的问题，其蔓延速度持续加快，主要利用了当前多数社交媒体平台所固有的制度性漏洞。这一现象主要由用户互动过程中的攻击性言论，或以发布多媒体内容形式呈现的不当信息所推动。如今，大型科技企业掌控着每天数以百万计用户登录的社交平台，为防止用户暴露于此类有害内容，确保符合相关法律法规要求，并维持高水平的服务质量，建立有效的防护机制显得尤为必要。构建一个强大且可靠的系统，用于检测并阻止相关有害内容的上传，将对数字互联社会产生深远影响。我们的日常生活诸多方面都与社交身份紧密关联，这使得个体极易遭受网络暴力与不当行为的侵害。因此，若缺乏精准的仇恨言论检测机制，将严重损害整体用户体验；而检测系统的误判则可能引发诸多伦理争议。本文提出“ETHOS”——一个基于YouTube和Reddit评论构建的文本数据集，包含二分类与多标签两种形式，所有数据均通过Figure-Eight众包平台进行人工验证。此外，我们详细阐述了该数据集的标注流程：采用主动采样策略，以平衡数据在不同维度上的分布。我们的核心假设是，即便从这一耗时耗力的标注过程中仅获取少量标注数据，也足以确保在所分析内容中准确识别出仇恨言论的发生。

源 PDF