2ヶ月前
BN-AuthProf: バングラデシュ語の著者プロファイリングにおける ソーシャルメディアテキストの機械学習のベンチマーキング
Tasnim, Raisa ; Chowdhury, Mehanaz ; Rahman, Md Ataur

要約
著者プロファイリングは、ソーシャルメディアプラットフォームの普及に伴い、著者の性別や年齢などの属性を分析して明らかにする手法として重要な位置を占めるようになりました。本論文では、ベンガル語の著者プロファイリングに焦点を当て、ソーシャルメディア上の書き方から匿名の著者に関する貴重な洞察を得ることを目指しています。主な目的は、新規作成されたベンガル語の著者プロファイリングデータセット「BN-AuthProf」に対して機械学習アプローチの性能を紹介し、評価することです。このデータセットには、300人の著者による30,131件のソーシャルメディア投稿が含まれており、それぞれの投稿は著者の年齢と性別でラベル付けされています。プライバシーを確保するために、著者の個人情報と機密情報は匿名化されています。様々な古典的な機械学習手法と深層学習技術が用いられてデータセットの評価が行われました。性別分類においては、サポートベクターマシン(SVM)を使用して最高80%の精度が達成されました。また、多項分布ナイーブベイズ(MNB)分類器はF1スコアで0.756という最良の結果を示しました。年齢分類においては、MNBが最大91%の精度とF1スコア0.905を達成しました。本研究は、ベンガル語における著者プロファイリングにおける性別と年齢分類に機械学習が有効であることを示しており、プライバシーとバイアスに配慮しつつ、マーケティング、セキュリティ、鑑識言語学、教育、犯罪捜査など実践的な応用範囲を持っています。