
要約
近年、オンラインコンテンツを制御し、誹謗中傷や攻撃的、差別的発言を排除するためのシステムが開発されてきた。しかし、権力を持つ人々がこうした規制手段を濫用し、言論の自由という民主的権利を妨げる事例も存在する。したがって、前向きで励まし合い、支援的な内容を促進するというポジティブな強化アプローチを取る研究が急務である。これまでの研究は、英語圏におけるネガティブなコンテンツの問題に焦点を当ててきたが、問題の本質は単なる有害コンテンツにとどまらない。さらに、多言語性という側面も持つ。そこで本研究では、平等性、多様性、包摂性(Equality, Diversity and Inclusion)をテーマにした「希望的発言(Hope Speech)」を対象とした多言語データセット「HopeEDI」を構築した。このデータセットは、YouTubeのユーザー生成コメントを対象とし、英語(28,451件)、タミル語(20,198件)、マラヤラム語(10,705件)の各言語で構成されており、すべて手動で「希望的発言を含む」と「含まない」の二値ラベル付けが施されている。知られている限り、本研究は多言語環境下で平等性・多様性・包摂性をテーマとした希望的発言を注釈した初めての研究である。本データセットのアノテーター間合意度は、Krippendorff’s alphaを用いて評価した。さらに、得られたデータセットを評価するための複数のベースラインモデルを構築し、精度(precision)、再現率(recall)、F1スコアを用いて評価結果を提示した。本データセットは研究コミュニティに公開されており、包容的かつ応答性のある発言を促進するポジティブな言語行動に関する今後の研究を促進することを期待している。