vor 2 Monaten

FHAC bei GermEval 2021: Identifizierung von deutschen toxischen, einladenden und faktbehauptenden Kommentaren mit Ensemble-Lernen

Tobias Bornheim; Niklas Grieger; Stephan Bialonski

Abstract

Die Verfügbarkeit von Sprachrepräsentationen, die durch große vortrainierte neuronale Netzwerke (wie BERT und ELECTRA) gelernt wurden, hat in den letzten Jahren zu Verbesserungen bei vielen nachgelagerten Natürlichsprachverarbeitungsaufgaben geführt. Vortrainierte Modelle unterscheiden sich in der Regel in ihren Vortrainierungszielen, Architekturen und den Datensätzen, auf denen sie trainiert werden, was die Leistung bei nachgelagerten Aufgaben beeinflussen kann. In dieser Arbeit haben wir deutsche BERT- und ELECTRA-Modelle feintunezt, um giftige (Teilaufgabe 1), ansprechende (Teilaufgabe 2) und faktual beanspruchende Kommentare (Teilaufgabe 3) in Facebook-Daten zu identifizieren, die vom GermEval 2021 Wettbewerb bereitgestellt wurden. Wir haben Ensembles dieser Modelle erstellt und untersucht, ob und wie die Klassifikationsleistung von der Anzahl der Ensemble-Mitglieder und ihrer Zusammensetzung abhängt. Bei externen Daten erreichte unser bestes Ensemble einen Makro-F1-Wert von 0.73 (für alle Teilaufgaben) sowie F1-Werte von 0.72, 0.70 und 0.76 für die Teilaufgaben 1, 2 und 3 jeweils.