7 天前
大型多模态模型在检索增强型仇恨表情包检测中的鲁棒性适配
Jingbiao Mei, Jinghong Chen, Guangyu Yang, Weizhe Lin, Bill Byrne

摘要
仇恨表情包已成为互联网上的重大关切问题,亟需构建强大的自动化检测系统。尽管视觉语言模型(LMMs)在仇恨表情包检测任务中展现出一定潜力,但仍面临性能欠佳及跨领域泛化能力有限等显著挑战。近期研究进一步揭示了在该场景下,标准微调(SFT)与上下文学习(in-context learning)方法在LMMs应用中的固有局限性。为应对上述问题,本文提出一种鲁棒的适应性框架,用于仇恨表情包检测,该框架在提升模型在领域内准确率的同时,显著增强跨领域泛化能力,且有效保留了LMMs原有的通用视觉-语言理解能力。在六个表情包分类数据集上的实验结果表明,所提方法达到了当前最优性能,甚至超越了参数量更大的智能体系统(agentic systems)。此外,相较于标准SFT方法,本方法生成的解释性推理过程(rationales)质量更高,能够更清晰地揭示仇恨内容的判断依据,显著提升了模型的可解释性。