StEduCov : Un ensemble de données exploré et benchmarké pour la détection de positionnement dans les tweets concernant l'éducation en ligne pendant la pandémie de COVID-19
Dans cet article, nous présentons StEduCov, un jeu de données annoté destiné à l’analyse des positions (stances) adoptées vis-à-vis de l’éducation en ligne pendant la pandémie de COVID-19. StEduCov comprend 16 572 tweets collectés sur une période de 15 mois, entre mars 2020 et mai 2021, via l’API Twitter. Ces tweets ont été annotés manuellement selon trois catégories : « accord », « désaccord » ou « neutre ». Nous avons mené une évaluation comparative sur ce jeu de données en utilisant des modèles d’apprentissage automatique d’avant-garde ainsi que des modèles traditionnels. Plus précisément, nous avons entraîné des modèles d’apprentissage profond — représentations bidirectionnelles encodées par des transformeurs (BERT), réseaux de neurones à mémoire à court terme (LSTM), réseaux de neurones convolutifs (CNN), biLSTM basés sur l’attention — ainsi que des modèles classiques tels que le naïve Bayes, la régression logistique, les machines à vecteurs de support (SVM), les arbres de décision, le k-plus proches voisins (k-NN) et les forêts aléatoires. L’accuracy moyenne obtenue lors de la validation croisée à 10 plis varie entre 75 % et 84,8 % pour la classification binaire, et entre 52,6 % et 68 % pour la classification multi-classes. Les performances ont été affectées par un fort chevauchement de vocabulaire entre les classes, ainsi que par une transfert d’apprentissage peu fiable lorsqu’on utilise des modèles profonds pré-entraînés sur des textes généraux, dans des domaines spécifiques tels que la COVID-19 ou l’enseignement à distance.