HyperAIHyperAI

Command Palette

Search for a command to run...

Pro-Cap: Nutzung eines gefrorenen Vision-Language-Modells zur Erkennung hasserfüllter Memes

Rui Cao Ming Shan Hee Adriel Kuek Wen-Haw Chong Roy Ka-Wei Lee Jing Jiang

Zusammenfassung

Die Erkennung hasserfüllter Memes ist eine herausfordernde multimodale Aufgabe, die ein tiefes Verständnis sowohl der visuellen als auch der sprachlichen Informationen sowie deren intermodalen Wechselwirkungen erfordert. In jüngsten Studien wurde versucht, vortrainierte visionssprachliche Modelle (PVLMs) für diese Aufgabe zu fine-tunen. Doch mit zunehmender Modellgröße wird es zunehmend wichtiger, leistungsstarke PVLMs effizienter zu nutzen, anstatt sie lediglich zu fine-tunen. Kürzlich haben Forscher versucht, Meme-Bilder in textuelle Beschreibungen zu überführen und diese dann zur Vorhersage mittels Sprachmodellen zu nutzen. Dieser Ansatz hat gute Ergebnisse gezeigt, leidet jedoch unter informativ wenig wertvollen Bildbeschreibungen. Berücksichtigt man diese beiden Aspekte, schlagen wir einen auf Untersuchung basierenden Beschreibungsanansatz vor, um PVLMs in einer zero-shot-Visual-Question-Answering-(VQA)-Weise zu nutzen. Konkret formulieren wir Fragen bezüglich hasserfüllter Inhalte an ein gefrorenes PVLM und nutzen die Antworten als Bildbeschreibungen (die wir Pro-Cap nennen), wodurch die Beschreibungen Informationen enthalten, die für die Erkennung hasserfüllter Inhalte entscheidend sind. Die hervorragende Leistung von Modellen, die mit Pro-Cap arbeiten, auf drei Benchmarks bestätigt die Wirksamkeit und Generalisierbarkeit des vorgeschlagenen Ansatzes.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Pro-Cap: Nutzung eines gefrorenen Vision-Language-Modells zur Erkennung hasserfüllter Memes | Paper | HyperAI