2 个月前

MemeCLIP：利用CLIP表示进行多模态表情包分类

Siddhant Bikram Shah; Shuvam Shiwakoti; Maheep Chaudhary; Haohan Wang

摘要

文本嵌入图像的复杂性在机器学习中构成了一个严峻的挑战，因为需要对这些图像所传达的多种表达方式进行多模态理解。尽管先前在多模态分析领域的研究主要集中在单一方面，如仇恨言论及其子类，本研究扩展了这一关注点，涵盖了语言学的多个方面：仇恨、仇恨目标、立场和幽默。我们引入了一个新的数据集PrideMM，该数据集包含5,063个与LGBTQ+骄傲运动相关的文本嵌入图像，从而填补了现有资源中的一个重要空白。我们在PrideMM上进行了广泛的实验，使用单模态和多模态基线方法为每项任务建立了基准。此外，我们提出了一种新的框架MemeCLIP，旨在在保留预训练CLIP模型知识的同时实现高效的下游学习。实验结果表明，MemeCLIP在两个真实世界的数据集上相较于之前提出的框架表现出更优的性能。我们进一步比较了MemeCLIP和零样本GPT-4在仇恨分类任务上的表现。最后，通过定性分析错误分类的样本，我们讨论了模型的不足之处。我们的代码和数据集已公开发布于：https://github.com/SiddhantBikram/MemeCLIP。