BN-AuthProf : Évaluation des méthodes d'apprentissage automatique pour le profilage d'auteurs en bengali sur les textes des médias sociaux

Le profilage d'auteur, qui consiste en l'analyse de textes pour dévoiler des attributs tels que le sexe et l'âge de l'auteur, est devenu essentiel avec la diffusion généralisée des plateformes de médias sociaux. Cet article se concentre sur le profilage d'auteur dans la langue bengalie, visant à extraire des informations précieuses sur les auteurs anonymes en fonction de leur style d'écriture sur les réseaux sociaux. L'objectif principal est d'introduire et d'évaluer les performances des approches d'apprentissage automatique sur un nouveau jeu de données de profilage d'auteur en bengali, appelé BN-AuthProf. Ce jeu de données comprend 30 131 publications de médias sociaux provenant de 300 auteurs, étiquetées par leur âge et leur sexe. Les identités et les informations sensibles des auteurs ont été anonymisées pour garantir la confidentialité. Différentes techniques d'apprentissage automatique classiques et profondes ont été utilisées pour évaluer ce jeu de données. Pour la classification du sexe, la meilleure précision obtenue était de 80 % en utilisant une machine à vecteurs de support (SVM), tandis qu'un classificateur bayésien naïf multinomial (MNB) a obtenu le meilleur score F1 de 0,756. Pour la classification par âge, le MNB a atteint une précision maximale de 91 % avec un score F1 de 0,905. Cette recherche met en lumière l'efficacité de l'apprentissage automatique dans la classification du sexe et de l'âge pour le profilage d'auteur en bengali, avec des implications pratiques s'étendant au marketing, à la sécurité, à la linguistique judiciaire, à l'éducation et aux enquêtes criminelles, tout en tenant compte des questions liées à la confidentialité et aux biais.