6ヶ月前

監視付き微調整

データセット

AIインフラストラクチャ

アプローチ／フレームワーク

Tommaso Caselli Valerio Basile Jelena Mitrović Michael Granitzer

概要

本稿では、英語における暴言検出を目的とした再訓練済みBERTモデル「HateBERT」を紹介する。本モデルは、我々が収集・公開した大規模なRedditコメントデータセットRAL-Eを用いて学習された。RAL-Eは、攻撃的・暴言的・憎悪的とされるコミュニティが禁止されたことにより収集された英語コメントから構成されている。本研究では、一般事前学習済み言語モデルと、禁止コミュニティの投稿データを用いて再訓練した暴言傾向モデルとの間で、攻撃的・暴言的言語および憎悪発言検出の3つの英語データセットにおいて詳細な比較を行い、その結果を提示する。すべてのデータセットにおいて、HateBERTは対応する一般BERTモデルを上回る性能を示した。さらに、一般事前学習モデルとその暴言傾向モデルのデータセット間での移植性（portability）を比較する一連の実験を検討し、移植性がアノテーション対象の現象の適合性（compatibility）に影響を受けることが示された。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

監視付き微調整

データセット

AIインフラストラクチャ

アプローチ／フレームワーク

Tommaso Caselli Valerio Basile Jelena Mitrović Michael Granitzer

概要

本稿では、英語における暴言検出を目的とした再訓練済みBERTモデル「HateBERT」を紹介する。本モデルは、我々が収集・公開した大規模なRedditコメントデータセットRAL-Eを用いて学習された。RAL-Eは、攻撃的・暴言的・憎悪的とされるコミュニティが禁止されたことにより収集された英語コメントから構成されている。本研究では、一般事前学習済み言語モデルと、禁止コミュニティの投稿データを用いて再訓練した暴言傾向モデルとの間で、攻撃的・暴言的言語および憎悪発言検出の3つの英語データセットにおいて詳細な比較を行い、その結果を提示する。すべてのデータセットにおいて、HateBERTは対応する一般BERTモデルを上回る性能を示した。さらに、一般事前学習モデルとその暴言傾向モデルのデータセット間での移植性（portability）を比較する一連の実験を検討し、移植性がアノテーション対象の現象の適合性（compatibility）に影響を受けることが示された。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています