17일 전
StEduCov: 코로나19 팬데믹 기간 동안 온라인 교육에 대한 트윗 내 태도 탐지에 관한 탐색 및 벤치마킹된 데이터셋
{Khaled Shaban, Sayed Hamdi, Ali Hamdi, Omama Hamad}
초록
본 논문에서는 코로나19 팬데믹 기간 동안 온라인 교육에 대한 태도를 분석하기 위한 주석付き 데이터셋인 StEduCov를 제안한다. StEduCov는 2020년 3월부터 2021년 5월까지 총 15개월 동안 트위터 API를 활용해 수집한 총 16,572개의 트윗으로 구성되어 있으며, 각 트윗은 수동으로 '찬성', '반대', '중립' 세 가지 클래스로 주석이 달렸다. 본 연구에서는 최신 기계학습 모델과 전통적 기계학습 모델을 사용하여 데이터셋에 대한 벤치마킹을 수행하였다. 구체적으로, 양방향 트랜스포머 기반 인코더( bidirectional encoder representations from transformers, BERT), 장단기 기억망(LSTM), 합성곱 신경망(CNN), 주의 기반 양방향 LSTM, 나이브 베이즈 SVM 등 딥러닝 모델과 함께 나이브 베이즈, 로지스틱 회귀, 서포트 벡터 머신(SVM), 결정 트리, K-최근접 이웃(KNN), 랜덤 포레스트 모델을 훈련하였다. 이들 모델의 10겹 교차 검증에서 이진 분류의 평균 정확도는 75%에서 84.8% 사이, 다중 클래스 분류의 평균 정확도는 52.6%에서 68% 사이로 나타났다. 모델 성능은 클래스 간 고도의 어휘 중복과 일반 텍스트로 사전 훈련된 딥러닝 모델이 코로나19 및 원격 교육과 같은 특정 도메인에 대해 신뢰할 수 없는 전이 학습(transfer learning)을 수행함에 따라 저하되는 경향을 보였다.