11日前

ブラジルポルトガル語におけるソーシャルメディアの毒性言語検出:新データセットと多言語分析

João A. Leite, Diego F. Silva, Kalina Bontcheva, Carolina Scarton
ブラジルポルトガル語におけるソーシャルメディアの毒性言語検出:新データセットと多言語分析
要約

嫌がらせ発言や有害なコメントは、ソーシャルメディアプラットフォームの利用者にとって一般的な懸念事項である。幸いにも、これらのコメントはプラットフォーム全体において少数派ではあるが、依然として悪影響を及ぼす可能性がある。したがって、こうしたコメントを特定することは、ソーシャルメディアにおける有害性の拡散を研究・防止する上で重要な課題である。これまでの自動的有害コメント検出に関する研究は、英語を主な対象としており、ブラジルポルトガル語などの言語における研究は極めて少ない。本論文では、ブラジルポルトガル語のツイートを「有害」「非有害」、あるいは異なる種類の有害性に分類してラベル付けした、大規模な新データセットを提案する。本研究では、複数の人口統計的グループをカバーする候補データの選定を意識したデータ収集およびラベル付けプロセスを提示する。バイナリ分類の設定において、最先端のBERTモデルは単言語データを用いて76%のマクロF1スコアを達成した。また、多言語アプローチの最近の進展にもかかわらず、より高精度なモデルを構築するためには、大規模な単言語データの蓄積が依然として必要であることを示した。マルチラベル分類に関する実験および誤り分析から、本データセット内で頻度が低い特定の有害コメントタイプの分類が困難であることが明らかとなり、異なる有害性のカテゴリを認識できるモデルの開発の必要性が強調された。

ブラジルポルトガル語におけるソーシャルメディアの毒性言語検出:新データセットと多言語分析 | 最新論文 | HyperAI超神経