HyperAIHyperAI
vor 2 Monaten

Hate-CLIPper: Multimodale Klassifikation hassbringender Memes auf der Basis der kreuzmodalen Interaktion von CLIP-Features

Kumar, Gokul Karthik ; Nandakumar, Karthik
Hate-CLIPper: Multimodale Klassifikation hassbringender Memes auf der Basis
der kreuzmodalen Interaktion von CLIP-Features
Abstract

Hasserfüllte Memes stellen eine wachsende Gefahr in sozialen Medien dar. Obwohl das Bild und der dazugehörige Text in einem Meme miteinander verbunden sind, vermitteln sie nicht unbedingt die gleiche Bedeutung, wenn sie einzeln betrachtet werden. Daher erfordert die Erkennung hasserfüllter Memes eine sorgfältige Berücksichtigung sowohl visueller als auch textbasierter Informationen. Mehrmodales Vortraining kann für diese Aufgabe vorteilhaft sein, da es die Beziehung zwischen Bild und Text effektiv durch ihre Darstellung in einem ähnlichen Merkmalsraum erfasst. Zudem ist es entscheidend, die Wechselwirkungen zwischen den bildbasierten und textbasierten Merkmalen durch Zwischenschritte der Fusion zu modellieren. Die meisten existierenden Methoden verwenden entweder mehrmodales Vortraining oder Zwischenschritte der Fusion, aber selten beides. In dieser Arbeit schlagen wir die Architektur Hate-CLIPper vor, die die kreuzmodalen Wechselwirkungen zwischen den mit Hilfe von Kontrastiven Sprach-Bild-Vortrainings (CLIP)-Encodern erhaltenen Bild- und Textrepräsentationen durch eine Feature-Interaktion-Matrix (FIM) explizit modelliert. Ein einfacher Klassifikator basierend auf der FIM-Darstellung erreicht einen Stand der Technik übertreffenden Leistungswert auf dem Hateful Memes Challenge (HMC)-Datensatz mit einem AUROC von 85,8, was sogar die menschliche Leistung von 82,65 übertrifft. Experimente mit anderen Meme-Datensätzen wie Propaganda Memes und TamilMemes zeigen zudem die Übertragbarkeit des vorgeschlagenen Ansatzes. Schließlich analysieren wir die Interpretierbarkeit der FIM-Darstellung und demonstrieren, dass kreuzmodale Wechselwirkungen tatsächlich das Lernen sinnvoller Konzepte fördern können. Der Code für diese Arbeit ist unter https://github.com/gokulkarthik/hateclipper verfügbar.

Hate-CLIPper: Multimodale Klassifikation hassbringender Memes auf der Basis der kreuzmodalen Interaktion von CLIP-Features | Neueste Forschungsarbeiten | HyperAI