
要約
オンラインミソジニーは、オンライン上で発生する誹謗中傷言語の一種であり、深刻かつ有害な社会的影響をもたらす。オンラインにおけるミソジニー言語の自動検出は、極めて重要である一方で、データ収集、データラベリング、バイアス低減の面で複雑な課題を抱えている。これは、このようなデータが言語的に複雑かつ多様であるためである。本論文では、この分野において以下の3つの貢献を行う。第一に、反復的なラベリングプロセスおよびコードブックの詳細な設計を記述する。第二に、自然な文章表現におけるミソジニーをラベリングするための包括的なラベル分類体系を提示する。第三に、ソーシャルメディア投稿から抽出した高品質なラベル付き投稿データセットを紹介する。