BN-AuthProf: Benchmarking Machine Learning für Bangla-Autor-Profilierung in sozialen Medien-Texten

Die Autorprofiling, also die Analyse von Texten zur Ermittlung von Eigenschaften wie Geschlecht und Alter des Autors, ist mit der weit verbreiteten Nutzung sozialer Medienplattformen zunehmend wichtig geworden. Diese Arbeit konzentriert sich auf das Autorprofiling in der Bengali-Sprache und strebt an, wertvolle Erkenntnisse über anonyme Autoren basierend auf ihrem Schreibstil in sozialen Medien zu gewinnen. Das primäre Ziel besteht darin, Maschinelles Lernen auf einem neu erstellten Bengali-Autorprofiling-Datensatz, dem BN-AuthProf, einzuführen und dessen Leistungsfähigkeit zu bewerten. Der Datensatz umfasst 30.131 Beiträge aus sozialen Medien von 300 Autoren, die nach Alter und Geschlecht gekennzeichnet sind. Die Identitäten und sensible Informationen der Autoren wurden anonymisiert, um die Privatsphäre zu gewährleisten. Verschiedene klassische Methoden des maschinellen Lernens sowie Deep-Learning-Techniken wurden angewendet, um den Datensatz zu evaluieren. Bei der Geschlechtsklassifizierung wurde die beste Genauigkeit von 80 % mit Hilfe eines Support Vector Machines (SVM)-Modells erreicht, während ein Multinomial Naive Bayes (MNB)-Klassifikator den besten F1-Wert von 0,756 erzielte. Bei der Altersklassifizierung erreichte MNB eine maximale Genauigkeit von 91 % mit einem F1-Wert von 0,905. Diese Forschung unterstreicht die Effektivität des maschinellen Lernens bei der Klassifizierung von Geschlecht und Alter im Rahmen des bengalischen Autorprofilings und weist praktische Implikationen für Bereiche wie Marketing, Sicherheit, forensische Linguistik, Bildung und kriminalistische Ermittlungen auf – unter Berücksichtigung von Privatsphäre und Verzerrungen.