Command Palette
Search for a command to run...
HateBERT:英語における嫌悪言語検出のためのBERT再訓練
HateBERT:英語における嫌悪言語検出のためのBERT再訓練
Tommaso Caselli Valerio Basile Jelena Mitrović Michael Granitzer
概要
本稿では、英語における暴言検出を目的とした再訓練済みBERTモデル「HateBERT」を紹介する。本モデルは、我々が収集・公開した大規模なRedditコメントデータセットRAL-Eを用いて学習された。RAL-Eは、攻撃的・暴言的・憎悪的とされるコミュニティが禁止されたことにより収集された英語コメントから構成されている。本研究では、一般事前学習済み言語モデルと、禁止コミュニティの投稿データを用いて再訓練した暴言傾向モデルとの間で、攻撃的・暴言的言語および憎悪発言検出の3つの英語データセットにおいて詳細な比較を行い、その結果を提示する。すべてのデータセットにおいて、HateBERTは対応する一般BERTモデルを上回る性能を示した。さらに、一般事前学習モデルとその暴言傾向モデルのデータセット間での移植性(portability)を比較する一連の実験を検討し、移植性がアノテーション対象の現象の適合性(compatibility)に影響を受けることが示された。