HopeEDI: Ein mehrsprachiger Datensatz zur Erkennung von Hoffnungsspeech für Gleichheit, Vielfalt und Inklusion

In den letzten Jahren wurden Systeme entwickelt, um Online-Inhalte zu kontrollieren und missbräuchliche, beleidigende oder Hassrede enthaltende Inhalte zu beseitigen. Dennoch werden solche Formen der Zensur gelegentlich von Machtträgern missbraucht, um das demokratische Recht auf freie Meinungsäußerung zu behindern. Daher ist es unerlässlich, dass die Forschung einen positiven Verstärkungsansatz gegenüber Online-Inhalten verfolgt, die ermutigend, positiv und unterstützend sind. Bisher konzentrierten sich die meisten Studien auf die Behandlung negativer Inhalte im Englischen, obwohl das Problem weitaus komplexer ist als nur die Identifizierung schädlicher Texte. Zudem ist es multilinguistisch geprägt. Daher haben wir einen Hope Speech-Datensatz für Gleichheit, Vielfalt und Inklusion (HopeEDI) erstellt, der Nutzerkommentare aus der Social-Media-Plattform YouTube enthält – 28.451 Kommentare im Englischen, 20.198 im Tamilischen und 10.705 im Malayalam, jeweils manuell als enthaltend Hope Speech oder nicht klassifiziert. Sofern uns bekannt ist, handelt es sich hierbei um die erste Studie, die Hope Speech im Hinblick auf Gleichheit, Vielfalt und Inklusion in einem mehrsprachigen Kontext annotiert. Wir haben die inter-annotator-Übereinstimmung unseres Datensatzes mithilfe des Krippendorff’s Alpha ermittelt. Zudem haben wir mehrere Baseline-Modelle erstellt, um den Datensatz zu benchmarken, und die Ergebnisse anhand von Präzision, Recall und F1-Score dargestellt. Der Datensatz steht der Forschungsgemeinschaft öffentlich zur Verfügung. Wir hoffen, dass diese Ressource weitere Forschung zu förderlichem, inklusivem und responsivem Sprachverhalten anregen wird, das Positivität stärkt.