vor 11 Tagen
Verbesserung des Multimodal-Transformers durch externe Labels und in-domain-Vortrainierung: Gewinnerlösung des Hateful Meme Challenge
Ron Zhu

Abstract
Die Erkennung hasstreibender Memes ist ein neu entstandenes Forschungsfeld, das sowohl visuelles als auch sprachliches Verständnis des Memes sowie Hintergrundwissen erfordert, um eine gute Leistung bei dieser Aufgabe zu erzielen. Dieser technische Bericht fasst die Lösung des ersten Platzes im Hateful Meme Detection Challenge 2020 zusammen, die state-of-the-art visuell-sprachliche Transformer erweitert, um dieses Problem anzugehen. Am Ende des Berichts werden zudem die Schwächen der aktuellen Methode aufgezeigt sowie mögliche Ansätze zur Verbesserung diskutiert.