16 天前

多模态表情包数据集(MultiOFF)用于识别图像与文本中的攻击性内容

{Paul Buitelaar, Bharathi Raja Chakravarthi, Mihael Arcan, Shardul Suryawanshi}
多模态表情包数据集(MultiOFF)用于识别图像与文本中的攻击性内容
摘要

表情包(meme)是一种通过互联网传播思想或情感的媒介形式。随着表情包发布逐渐成为网络交流的一种新方式,由于表情包具有多模态特性,涉及仇恨言论、恶意挑衅及网络欺凌等相关事件的发布也日益增多。目前,针对单一模态(如文本或图像)中的仇恨言论、冒犯性内容和攻击性内容的检测已得到广泛研究。然而,将文本与图像两种模态相结合以检测冒犯性内容仍处于发展初期。表情包的挑战性在于其常以隐含方式表达幽默与讽刺,仅单独分析文本或图像时,可能难以判断其是否具有冒犯性。因此,必须融合多模态信息才能准确识别某一表情包是否具有冒犯性。由于此前缺乏公开可用的多模态冒犯性表情包内容检测数据集,本文基于2016年美国总统大选相关表情包构建了名为MultiOFF的多模态表情包数据集,用于冒犯性内容检测任务。在此基础上,我们利用该数据集开发了一种分类模型。采用早期融合(early fusion)策略将图像与文本模态信息进行整合,并与仅使用文本或仅使用图像的基线模型进行对比,以评估其有效性。实验结果表明,融合模型在精确率(Precision)、召回率(Recall)和F1分数(F-Score)等指标上均取得显著提升。本文所使用的代码与数据集已公开发布于:https://github.com/bharathichezhiyan/Multimodal-Meme-Classification-Identifying-Offensive-Content-in-Image-and-Text

多模态表情包数据集(MultiOFF)用于识别图像与文本中的攻击性内容 | 最新论文 | HyperAI超神经