HyperAIHyperAI
vor 7 Tagen

Robuste Anpassung großer multimodaler Modelle für die retrievalverstärkte Erkennung hasserfüllter Memes

Jingbiao Mei, Jinghong Chen, Guangyu Yang, Weizhe Lin, Bill Byrne
Robuste Anpassung großer multimodaler Modelle für die retrievalverstärkte Erkennung hasserfüllter Memes
Abstract

Hassvolle Memes sind zu einer erheblichen Herausforderung im Internet geworden und erfordern daher robuste automatisierte Erkennungssysteme. Obwohl multimodale Sprach- und Bildmodelle (LMMs) bei der Erkennung hassverbreitender Memes vielversprechende Ergebnisse gezeigt haben, stehen sie vor erheblichen Herausforderungen wie suboptimaler Leistung und begrenzter Generalisierungsfähigkeit auf neuen Datensätzen. Neuere Studien offenbaren zudem die Grenzen sowohl von Supervised Fine-Tuning (SFT) als auch von In-Context-Learning bei der Anwendung auf LMMs in diesem Kontext. Um diese Probleme anzugehen, schlagen wir einen robusten Anpassungsrahmen für die Erkennung hassverbreitender Memes vor, der die Genauigkeit innerhalb des Trainingsdomänen und die Generalisierung über Domänen hinweg verbessert, ohne die allgemeinen Fähigkeiten von LMMs im Bereich Vision-Sprache zu beeinträchtigen. Experimente an sechs Mem-Klassifikationsdatensätzen zeigen, dass unsere Methode die derzeit beste Leistung erzielt und sogar größere agente-basierte Systeme übertrifft. Darüber hinaus generiert unsere Methode qualitativ hochwertigere Erklärungen (Rationales) für hassverbreitenden Inhalt im Vergleich zu herkömmlichem SFT, was die Interpretierbarkeit des Modells erheblich steigert.

Robuste Anpassung großer multimodaler Modelle für die retrievalverstärkte Erkennung hasserfüllter Memes | Neueste Forschungsarbeiten | HyperAI