6ヶ月前

自然言語処理

データセット

マルチタスク学習

AIインフラストラクチャ

アプローチ／フレームワーク

自然言語処理

Erida Nurce Jorgel Keci Leon Derczynski

概要

近年におけるソーシャルメディアの利用がますます拡大する中で、オンラインプラットフォームにおける憎悪表現および攻撃的発言の増加に直接的な影響が生じている。このようなコンテンツの効果的な検出に関する研究は、主に英語およびいくつかの広く使われる言語に焦点を当てており、残りの大半の言語については同様の研究が行われていないため、この分野で著しく進展している技術の恩恵を受けることができていない。本論文では、さまざまなソーシャルメディアプラットフォームから収集したユーザー生成コンテンツをもとに構築された、アルバニア語の憎悪表現および攻撃的発言を対象としたアノテーション付きデータセット「\textsc{Shaj}」を提示する。このデータセットのアノテーションは、OffensEvalで導入された階層的スキーマに従っている。本データセットは、3種類の異なる分類モデルを用いて検証された結果、攻撃的言語の識別においてF1スコア0.77、攻撃的発言の自動分類においてF1スコア0.64、攻撃的言語の対象特定においてF1スコア0.52の成績が得られた。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

自然言語処理

データセット

マルチタスク学習

AIインフラストラクチャ

アプローチ／フレームワーク

自然言語処理

Erida Nurce Jorgel Keci Leon Derczynski

概要

近年におけるソーシャルメディアの利用がますます拡大する中で、オンラインプラットフォームにおける憎悪表現および攻撃的発言の増加に直接的な影響が生じている。このようなコンテンツの効果的な検出に関する研究は、主に英語およびいくつかの広く使われる言語に焦点を当てており、残りの大半の言語については同様の研究が行われていないため、この分野で著しく進展している技術の恩恵を受けることができていない。本論文では、さまざまなソーシャルメディアプラットフォームから収集したユーザー生成コンテンツをもとに構築された、アルバニア語の憎悪表現および攻撃的発言を対象としたアノテーション付きデータセット「\textsc{Shaj}」を提示する。このデータセットのアノテーションは、OffensEvalで導入された階層的スキーマに従っている。本データセットは、3種類の異なる分類モデルを用いて検証された結果、攻撃的言語の識別においてF1スコア0.77、攻撃的発言の自動分類においてF1スコア0.64、攻撃的言語の対象特定においてF1スコア0.52の成績が得られた。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

アルバニア語の攻撃的コンテンツの検出 | 記事 | HyperAI超神経