Verbesserung der Erkennung von Hassmemes durch retrivale-gesteuertes kontrastives Lernen

Hassvolle Memes sind zu einem erheblichen Anliegen im Internet geworden.Die Erkennung hassvoller Memes erfordert, dass das System sowohl die visuelle als auch die textuelle Modalität gemeinsam versteht. Unsere Untersuchungen zeigen, dass der Einbettungsraum bestehender CLIP-basierter Systeme nicht empfindlich genug für subtile Unterschiede in Memes ist, die für eine korrekte Hasskategorisierung entscheidend sind. Wir schlagen vor, einen Hassbewusstsein-einbettenden Raum durch abfragerichtete kontrastive Training zu konstruieren. Unser Ansatz erreicht den aktuellen Stand der Technik auf dem HatefulMemes-Datensatz mit einem AUROC von 87,0 und übertrifft dabei viel größere feinjustierte multimodale Modelle. Wir präsentieren ein abfragebasiertes System zur Erkennung hassvoller Memes, das in der Lage ist, Hass auf Basis von Daten zu identifizieren, die während des Trainings nicht gesehen wurden. Dies ermöglicht es Entwicklern, das System zur Erkennung hassvoller Memes einfach durch Hinzufügen neuer Beispiele zu aktualisieren, ohne es neu zu trainieren – eine wünschenswerte Eigenschaft für echte Dienste in der ständig sich wandelnden Welt der hassvollen Memes im Internet.