
摘要
作者画像,即通过分析文本以揭示作者的性别和年龄等属性,随着社交媒体平台的广泛使用已成为一项重要任务。本文重点研究孟加拉语的作者画像,旨在根据作者在社交媒体上的写作风格提取有价值的见解。主要目标是介绍并评估机器学习方法在新创建的孟加拉语作者画像数据集(BN-AuthProf)上的性能。该数据集包含来自300位作者的30,131篇社交媒体帖子,每篇帖子都标注了作者的年龄和性别。为了确保隐私,已对作者的身份和敏感信息进行了匿名化处理。研究采用了多种经典的机器学习和深度学习技术来评估该数据集。在性别分类方面,支持向量机(SVM)达到了最高的准确率80%,而多项式朴素贝叶斯(Multinomial Naive Bayes, MNB)分类器则获得了最佳的F1分数0.756。在年龄分类方面,MNB实现了最高准确率91%,F1分数为0.905。本研究强调了机器学习在孟加拉语作者画像中的性别和年龄分类方面的有效性,并探讨了其在营销、安全、司法语言学、教育和刑事调查等领域的实际应用前景,同时考虑了隐私保护和潜在偏见问题。