6ヶ月前

ディープラーニング

データセット

AIインフラストラクチャ

アプローチ／フレームワーク

Sai Saketh Aluru Binny Mathew Punyajoy Saha Animesh Mukherjee

概要

ヘイトスピーチ検出は、現状の多数のデータセットが英語のみに限定されていることから、依然として困難な課題である。本研究では、16の異なるデータソースから得られた9言語における多言語ヘイトスピーチについて、大規模な分析を実施した。その結果、リソースが限られた環境（低リソース設定）では、LASER埋め込みとロジスティック回帰を組み合わせた単純なモデルが最も優れた性能を示す一方で、リソースが豊富な環境（高リソース設定）ではBERTを基盤とするモデルが優位性を発揮することが明らかになった。また、ゼロショット分類の状況においては、イタリア語やポルトガル語といった言語においても良好な結果が得られた。本研究で提案するフレームワークは、低リソース言語向けの効率的な解決策として活用可能である。さらに、今後の多言語ヘイトスピーチ検出研究における良好なベースラインとしても役立つと考えられる。本研究で使用したコードおよび実験設定は、他の研究者による再現性確保のため、GitHubにて公開している（https://github.com/punyajoy/DE-LIMIT）。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

ディープラーニング

データセット

AIインフラストラクチャ

アプローチ／フレームワーク

Sai Saketh Aluru Binny Mathew Punyajoy Saha Animesh Mukherjee

概要

ヘイトスピーチ検出は、現状の多数のデータセットが英語のみに限定されていることから、依然として困難な課題である。本研究では、16の異なるデータソースから得られた9言語における多言語ヘイトスピーチについて、大規模な分析を実施した。その結果、リソースが限られた環境（低リソース設定）では、LASER埋め込みとロジスティック回帰を組み合わせた単純なモデルが最も優れた性能を示す一方で、リソースが豊富な環境（高リソース設定）ではBERTを基盤とするモデルが優位性を発揮することが明らかになった。また、ゼロショット分類の状況においては、イタリア語やポルトガル語といった言語においても良好な結果が得られた。本研究で提案するフレームワークは、低リソース言語向けの効率的な解決策として活用可能である。さらに、今後の多言語ヘイトスピーチ検出研究における良好なベースラインとしても役立つと考えられる。本研究で使用したコードおよび実験設定は、他の研究者による再現性確保のため、GitHubにて公開している（https://github.com/punyajoy/DE-LIMIT）。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

多言語ハートスピーチ検出のための深層学習モデル | 記事 | HyperAI超神経