2달 전
BN-AuthProf: 소셜 미디어 텍스트를 위한 방글라어 저자 프로파일링 머신 러닝 벤치마킹
Tasnim, Raisa ; Chowdhury, Mehanaz ; Rahman, Md Ataur

초록
저자 프로파일링은 소셜 미디어 플랫폼의 광범위한 사용으로 인해 필수적인 연구 영역이 되었습니다. 이 논문은 방글라어 저자 프로파일링에 초점을 맞추고, 소셜 미디어에서의 글쓰기 스타일을 바탕으로 익명의 저자들에 대한 유용한 통찰력을 얻는 것을 목표로 합니다. 주요 목적은 새로 생성된 방글라어 저자 프로파일링 데이터셋인 BN-AuthProf를 소개하고, 기계 학습 접근법의 성능을 벤치마킹하는 것입니다. 이 데이터셋은 300명의 저자가 작성한 30,131개의 소셜 미디어 게시물로 구성되어 있으며, 각 게시물은 저자의 나이와 성별로 라벨링되었습니다. 저자의 신원과 민감한 정보는 개인 정보 보호를 위해 익명화되었습니다. 다양한 전통적인 기계 학습 및 딥러닝 기술을 활용하여 데이터셋을 평가하였습니다. 성별 분류에서는 서포트 벡터 머신(Support Vector Machine, SVM)을 사용하여 최고 정확도 80%를 달성하였으며, 다항분포 나이브 베이즈(Multinomial Naive Bayes, MNB) 분류기는 최고 F1 점수 0.756를 기록하였습니다. 나이 분류에서는 MNB가 최대 정확도 91%와 F1 점수 0.905를 달성하였습니다. 본 연구는 방글라어 저자 프로파일링에서 성별과 나이 분류에 대한 기계 학습의 효과성을 강조하며, 마케팅, 보안, 법정언어학, 교육 및 형사 수사 등 다양한 실용적 의미를 지니며, 개인 정보 보호와 편향성을 고려하였습니다.