AliEdalat bei SemEval-2022 Aufgabe 4: Erkennung von herablassendem und herabwürdigendem Sprachgebrauch mittels fine-tuneten Sprachmodellen, BERT+BiGRU und Ensemble-Modellen

Diese Arbeit präsentiert die Methodik und Ergebnisse des AliEdalat-Teams für die SemEval-2022-Aufgabe 4: Erkennung von patronisierendem und herablassendem Sprachgebrauch (Patronizing and Condescending Language, PCL). Ziel dieser Aufgabe ist die Erkennung von PCL und der jeweiligen Kategorien in Texten, um eine weitere Diskriminierung von verletzlichen Gemeinschaften zu verhindern. Zur Erkennung des Vorhandenseins von PCL setzen wir einen Ensembles aus drei grundlegenden Modellen ein: fine-tuned BigBird, fine-tuned MPNet und BERT+BiGRU. Das Ensemblesystem erzielt aufgrund von Überanpassung (overfitting) schlechtere Ergebnisse als die Baseline und erreicht einen F1-Score von 0,3031. Wir stellen eine alternative Lösung vor, um das Problem des eingereichten Modells zu beheben. Statt die verschiedenen PCL-Kategorien gemeinsam zu erkennen, betrachten wir sie getrennt. Um jede PCL-Kategorie zu erkennen, agieren wir wie ein spezialisierter PCL-Erkennungssystem. Anstelle von BERT+BiGRU verwenden wir in den Modellen fine-tuned RoBERTa. Bei der Erkennung einzelner PCL-Kategorien übertrifft unser Modell die Baseline und erreicht einen F1-Score von 0,2531. Zudem präsentieren wir neue Modelle zur Erkennung zweier PCL-Kategorien, die die eingereichten Modelle überflügeln.