Anregung zur Klassifikation multimodaler hassgeprägter Memes

Die Klassifizierung hassenswerter Memes ist eine anspruchsvolle multimodale Aufgabe, die komplexe Schlussfolgerungen und kontextuelle Hintergrundwissen erfordert. Ideal wäre es, wenn wir eine explizite externe Wissensbasis nutzen könnten, um kontextuelle und kulturelle Informationen in hassenswerten Memes zu ergänzen. Es gibt jedoch keine bekannte explizite externe Wissensbasis, die solche Hassrede-kontextuellen Informationen bereitstellen könnte. Um diese Lücke zu schließen, schlagen wir PromptHate vor, ein einfaches aber effektives promptbasiertes Modell, das vortrainierte Sprachmodelle (PLMs) für die Klassifizierung hassenswerter Memes anweist. Insbesondere konstruieren wir einfache Prompts und geben einige kontextbezogene Beispiele, um das implizite Wissen im vortrainierten RoBERTa-Sprachmodell für die Klassifizierung hassenswerter Memes zu nutzen. Wir führen umfangreiche Experimente mit zwei öffentlich zugänglichen Datensätzen von hassenswerten und beleidigenden Memes durch. Unsere experimentellen Ergebnisse zeigen, dass PromptHate einen hohen AUC-Wert von 90,96 erreichen kann und dabei den aktuellen Stand der Technik bei der Klassifizierung hassenswerter Memes übertrifft. Darüber hinaus führen wir detaillierte Analysen und Fallstudien unter verschiedenen Prompt-Einstellungen durch und demonstrieren die Effektivität der Prompts bei der Klassifizierung hassenswerter Memes.