11日前

ETHOS:オンライン嫌がらせ発言検出データセット

Ioannis Mollas, Zoe Chrysopoulou, Stamatis Karlos, Grigorios Tsoumakas
ETHOS:オンライン嫌がらせ発言検出データセット
要約

オンラインでの嫌がらせ発言は、大多数のソーシャルメディアプラットフォームに特徴的な制度の脆弱性を悪用することで、着実なペースで増加している現代社会における新たな問題である。この現象は、ユーザー間の相互作用中あるいは投稿されたマルチメディアコンテンツの形で発生する攻撃的コメントによって主に助長されている。現在、巨額の企業が毎日何百万人ものユーザーがアクセスするプラットフォームを所有しており、同様の現象への暴露からユーザーを保護することは、関連する法令の遵守および高水準のサービス品質維持の観点から不可欠である。関連コンテンツのアップロードを検出・防止するための堅牢かつ信頼性の高いシステムの構築は、デジタル的に接続された社会に大きな影響を与えることになる。私たちの日常生活の多くの側面がソーシャルプロフィールと密接に結びついているため、使用者はいじめや攻撃的行為の標的となりやすい。その結果、正確な嫌がらせ発言検出メカニズムの欠如は、全体的なユーザーエクスペリエンスを著しく低下させる一方で、誤作動が発生した場合には多くの倫理的懸念を引き起こす。本論文では、「ETHOS」というテキストデータセットを提示する。このデータセットはYouTubeおよびRedditのコメントを基に構築され、二値分類と多ラベル分類の2種類のバージョンを備え、Figure-Eightというクラウドソーシングプラットフォームを用いた検証を経ている。さらに、このデータセットの作成に用いたアノテーションプロトコルについても述べる。具体的には、定義された複数の側面に応じてデータのバランスを取るためのアクティブサンプリング手法を採用している。本研究の核心的な仮定は、こうした時間のかかるプロセスからわずかな量のラベル付きデータを獲得しても、検証対象の資料中に嫌がらせ発言が存在するという保証が得られることにある。

ETHOS:オンライン嫌がらせ発言検出データセット | 最新論文 | HyperAI超神経