11日前

多言語ハートスピーチ検出のための深層学習モデル

Sai Saketh Aluru, Binny Mathew, Punyajoy Saha, Animesh Mukherjee
多言語ハートスピーチ検出のための深層学習モデル
要約

ヘイトスピーチ検出は、現状の多数のデータセットが英語のみに限定されていることから、依然として困難な課題である。本研究では、16の異なるデータソースから得られた9言語における多言語ヘイトスピーチについて、大規模な分析を実施した。その結果、リソースが限られた環境(低リソース設定)では、LASER埋め込みとロジスティック回帰を組み合わせた単純なモデルが最も優れた性能を示す一方で、リソースが豊富な環境(高リソース設定)ではBERTを基盤とするモデルが優位性を発揮することが明らかになった。また、ゼロショット分類の状況においては、イタリア語やポルトガル語といった言語においても良好な結果が得られた。本研究で提案するフレームワークは、低リソース言語向けの効率的な解決策として活用可能である。さらに、今後の多言語ヘイトスピーチ検出研究における良好なベースラインとしても役立つと考えられる。本研究で使用したコードおよび実験設定は、他の研究者による再現性確保のため、GitHubにて公開している(https://github.com/punyajoy/DE-LIMIT)。