17 天前
StEduCov:面向新冠疫情背景下推文中的在线教育立场检测的探索性与基准数据集
{Khaled Shaban, Sayed Hamdi, Ali Hamdi, Omama Hamad}
摘要
本文介绍了StEduCov,这是一个用于分析新冠疫情背景下公众对在线教育立场的标注数据集。StEduCov包含通过Twitter API在2020年3月至2021年5月共15个月内收集的16,572条推文,这些推文被人工标注为“支持”“反对”或“中立”三类立场。我们采用前沿的深度学习模型与传统机器学习模型对该数据集进行了基准测试。具体而言,我们训练了包括双向Transformer编码器(bidirectional encoder representations from transformers, BERT)、长短期记忆网络(LSTM)、卷积神经网络(CNN)、基于注意力机制的双向LSTM以及朴素贝叶斯支持向量机(Naive Bayes SVM)在内的深度学习模型,同时还包括朴素贝叶斯、逻辑回归、支持向量机(SVM)、决策树、K近邻(KNN)和随机森林等传统模型。在10折交叉验证中,这些模型在二分类立场识别任务中的平均准确率介于75%至84.8%之间,而在多分类任务中则介于52.6%至68%之间。模型性能受到类别间词汇高度重叠的影响,同时,使用在通用文本上预训练的深度模型进行迁移学习时,在新冠疫情与远程教育等特定领域任务中表现不稳定,显示出可靠性不足的问题。