HyperAIHyperAI
vor 17 Tagen

StEduCov: Ein untersuchtes und benchmarktes Datensatz für die Standpunkt-Erkennung in Tweets bezüglich Online-Bildung während der COVID-19-Pandemie

{Khaled Shaban, Sayed Hamdi, Ali Hamdi, Omama Hamad}
Abstract

In diesem Artikel präsentieren wir StEduCov, einen annotierten Datensatz zur Analyse von Haltungen gegenüber Online-Bildung während der COVID-19-Pandemie. StEduCov umfasst 16.572 Tweets, die über einen Zeitraum von 15 Monaten – von März 2020 bis Mai 2021 – mittels der Twitter-API gesammelt wurden. Die Tweets wurden manuell in die Klassen „zustimmen“, „ablehnen“ und „neutral“ annotiert. Wir führten Benchmarking-Experimente auf dem Datensatz mit state-of-the-art- sowie traditionellen maschinellen Lernmodellen durch. Insbesondere trainierten wir Deep-Learning-Modelle – bidirektionale Encoder-Repräsentationen aus Transformers (BERT), Long Short-Term Memory (LSTM), Faltungsneuronale Netze (CNN), attention-basierte biLSTM-Modelle sowie Naive Bayes-SVM – zusätzlich zu Naive Bayes, logistischer Regression, Support Vector Machines (SVM), Entscheidungsbäumen, K-Nächste-Nachbarn (KNN) und Random Forest. Die durchschnittliche Genauigkeit bei der 10-fachen Kreuzvalidierung lag bei den Modellen zwischen 75 % und 84,8 % für die binäre Klassifikation von Haltungen und zwischen 52,6 % und 68 % für die multi-klassige Haltungs-Klassifikation. Die Leistung der Modelle wurde durch eine hohe Vokabular-Überlappung zwischen den Klassen sowie durch unzuverlässige Transfer-Lernstrategien beeinträchtigt, insbesondere bei der Nutzung von tiefen Modellen, die auf allgemeinen Texten vortrainiert wurden, im Vergleich zu spezifischen Domänen wie COVID-19 und Fernunterricht.