6 个月前

计算机视觉

Girish A. Koushik Diptesh Kanojia Helen Treharne

摘要

社交媒体平台使得仇恨内容在文本、音频和视觉等多种模态间广泛传播，因此亟需有效的检测方法。尽管近期研究在单一模态的处理上展现出一定潜力，但其在不同模态组合下的表现仍缺乏系统性探索。本文对基于融合的多模态仇恨内容检测方法进行了系统性分析，重点关注其在视频与图像类内容上的性能表现。我们的全面评估揭示了显著的模态特异性局限：在视频内容（HateMM数据集）上，简单的嵌入融合方法取得了当前最优性能，F1分数提升达9.9个百分点；然而，在处理包含复杂图文关系的网络迷因（Hateful Memes数据集）时，该方法表现不佳。通过详尽的消融实验与错误分析，我们揭示了现有融合方法在捕捉细微跨模态交互方面存在明显不足，尤其是在存在良性混淆因素（benign confounders）的情况下。研究结果为构建更鲁棒的仇恨内容检测系统提供了关键洞见，并强调了针对不同模态设计差异化架构的必要性。相关代码已开源，地址为：https://github.com/gak97/Video-vs-Meme-Hate。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

Girish A. Koushik Diptesh Kanojia Helen Treharne

摘要

社交媒体平台使得仇恨内容在文本、音频和视觉等多种模态间广泛传播，因此亟需有效的检测方法。尽管近期研究在单一模态的处理上展现出一定潜力，但其在不同模态组合下的表现仍缺乏系统性探索。本文对基于融合的多模态仇恨内容检测方法进行了系统性分析，重点关注其在视频与图像类内容上的性能表现。我们的全面评估揭示了显著的模态特异性局限：在视频内容（HateMM数据集）上，简单的嵌入融合方法取得了当前最优性能，F1分数提升达9.9个百分点；然而，在处理包含复杂图文关系的网络迷因（Hateful Memes数据集）时，该方法表现不佳。通过详尽的消融实验与错误分析，我们揭示了现有融合方法在捕捉细微跨模态交互方面存在明显不足，尤其是在存在良性混淆因素（benign confounders）的情况下。研究结果为构建更鲁棒的仇恨内容检测系统提供了关键洞见，并强调了针对不同模态设计差异化架构的必要性。相关代码已开源，地址为：https://github.com/gak97/Video-vs-Meme-Hate。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

面向鲁棒的多模态仇恨内容检测框架：基于视频与图像内容的对比研究 | 论文 | HyperAI超神经