11日前
HateXplain:説明可能な嫌がらせ発言検出のためのベンチマークデータセット
Binny Mathew, Punyajoy Saha, Seid Muhie Yimam, Chris Biemann, Pawan Goyal, Animesh Mukherjee

要約
ヘイトスピーチは、オンラインソーシャルメディアを悩ませる深刻な課題である。近年、ヘイトスピーチ検出のためのより優れたモデルが次々と開発されている一方で、そのバイアスや解釈可能性(interpretability)に関する研究は依然として少ない。本論文では、この問題の多面的な側面をカバーする初のベンチマークデータセット「HateXplain」を紹介する。本データセットの各投稿は、以下の3つの視点からアノテーションされている:(1)一般的に用いられる3クラス分類(即ち、ヘイトスピーチ、攻撃的(offensive)、通常)、(2)対象コミュニティ(投稿におけるヘイトスピーチ/攻撃的発言の標的となっているコミュニティ)、および(3)根拠(rationales)—すなわち、そのラベル付け(ヘイトスピーチ、攻撃的、通常)を下す根拠となる投稿内の部分。既存の最先端モデルを用いて実験した結果、分類性能が非常に高いモデルであっても、モデルの妥当性(plausibility)や忠実性(faithfulness)といった説明可能性(explainability)指標では高いスコアを達成していないことが明らかになった。また、人間が提示した根拠を用いて学習させるモデルは、対象コミュニティに対する意図しないバイアスを低減する点で優れた性能を発揮することが観察された。本研究のコードおよびデータセットは、GitHubにて公開している:https://github.com/punyajoy/HateXplain