vor 2 Monaten

MemeCLIP: Nutzung von CLIP-Darstellungen für die multimodale Meme-Klassifizierung

Siddhant Bikram Shah; Shuvam Shiwakoti; Maheep Chaudhary; Haohan Wang

Abstract

Die Komplexität von textgeprägten Bildern stellt eine erhebliche Herausforderung im Maschinelles Lernen dar, insbesondere wenn es um die multimodale Verständnis mehrerer Aspekte der durch sie vermittelten Ausdrucksformen geht. Während frühere Forschungen im Bereich der multimodalität hauptsächlich einzelne Aspekte wie Hassrede und deren Unterklassen untersucht haben, erweitert diese Studie den Fokus auf mehrere linguistische Aspekte: Hass, Hassziele, Einstellungen und Humor. Wir stellen einen neuen Datensatz namens PrideMM vor, der 5.063 textgeprägte Bilder beinhaltet, die mit der LGBTQ+-Stolz-Bewegung in Zusammenhang stehen, und damit eine ernsthafte Lücke in den vorhandenen Ressourcen schließt. Anhand des Datensatzes PrideMM führen wir umfangreiche Experimente durch, indem wir unimodale und multimodale Baseline-Methoden einsetzen, um Benchmarks für jede Aufgabe zu etablieren. Zudem schlagen wir ein neues Framework namens MemeCLIP vor, das effizientes Downstream-Lernen ermöglicht, während es das Wissen des vortrainierten CLIP-Modells bewahrt. Die Ergebnisse unserer Experimente zeigen, dass MemeCLIP bei zwei realweltlichen Datensätzen eine überlegene Leistung im Vergleich zu bisher vorgeschlagenen Frameworks erzielt. Wir vergleichen zudem die Leistungsfähigkeit von MemeCLIP und Zero-Shot-GPT-4 bei der Klassifizierung von Hassreden. Schließlich diskutieren wir die Nachteile unseres Modells durch eine qualitative Analyse fehlklassifizierter Beispiele. Unser Code und unser Datensatz sind öffentlich zugänglich unter: https://github.com/SiddhantBikram/MemeCLIP.