Pro-Cap: Nutzung eines gefrorenen Vision-Language-Modells zur Erkennung hasserfüllter Memes

Die Erkennung hasserfüllter Memes ist eine herausfordernde multimodale Aufgabe, die ein tiefes Verständnis sowohl der visuellen als auch der sprachlichen Informationen sowie deren intermodalen Wechselwirkungen erfordert. In jüngsten Studien wurde versucht, vortrainierte visionssprachliche Modelle (PVLMs) für diese Aufgabe zu fine-tunen. Doch mit zunehmender Modellgröße wird es zunehmend wichtiger, leistungsstarke PVLMs effizienter zu nutzen, anstatt sie lediglich zu fine-tunen. Kürzlich haben Forscher versucht, Meme-Bilder in textuelle Beschreibungen zu überführen und diese dann zur Vorhersage mittels Sprachmodellen zu nutzen. Dieser Ansatz hat gute Ergebnisse gezeigt, leidet jedoch unter informativ wenig wertvollen Bildbeschreibungen. Berücksichtigt man diese beiden Aspekte, schlagen wir einen auf Untersuchung basierenden Beschreibungsanansatz vor, um PVLMs in einer zero-shot-Visual-Question-Answering-(VQA)-Weise zu nutzen. Konkret formulieren wir Fragen bezüglich hasserfüllter Inhalte an ein gefrorenes PVLM und nutzen die Antworten als Bildbeschreibungen (die wir Pro-Cap nennen), wodurch die Beschreibungen Informationen enthalten, die für die Erkennung hasserfüllter Inhalte entscheidend sind. Die hervorragende Leistung von Modellen, die mit Pro-Cap arbeiten, auf drei Benchmarks bestätigt die Wirksamkeit und Generalisierbarkeit des vorgeschlagenen Ansatzes.