
要約
近年におけるソーシャルメディアの利用がますます拡大する中で、オンラインプラットフォームにおける憎悪表現および攻撃的発言の増加に直接的な影響が生じている。このようなコンテンツの効果的な検出に関する研究は、主に英語およびいくつかの広く使われる言語に焦点を当てており、残りの大半の言語については同様の研究が行われていないため、この分野で著しく進展している技術の恩恵を受けることができていない。本論文では、さまざまなソーシャルメディアプラットフォームから収集したユーザー生成コンテンツをもとに構築された、アルバニア語の憎悪表現および攻撃的発言を対象としたアノテーション付きデータセット「\textsc{Shaj}」を提示する。このデータセットのアノテーションは、OffensEvalで導入された階層的スキーマに従っている。本データセットは、3種類の異なる分類モデルを用いて検証された結果、攻撃的言語の識別においてF1スコア0.77、攻撃的発言の自動分類においてF1スコア0.64、攻撃的言語の対象特定においてF1スコア0.52の成績が得られた。