
要約
本稿では、SemEval-2022 Task 4「支援的・優越的な言語(PCL)検出」において、AliEdalatチームが採用した手法および得られた結果について報告する。本タスクの目的は、脆弱なコミュニティに対する差別を防止するため、テキスト中のPCLの存在およびPCLのカテゴリを検出することにある。本研究では、PCLの存在を検出するために、微調整済みBigBird、微調整済みMPNet、およびBERT+BiGRUの3つの基本モデルをアンサンブルする手法を採用した。しかし、過学習の影響により、アンサンブルモデルはベースラインモデルよりも性能が劣り、F1スコアは0.3031にとどまった。そこで、提出モデルの問題を解決するための新たなアプローチを提示する。本アプローチでは、PCLの異なるカテゴリを個別に考慮する。各PCLカテゴリの検出にあたって、PCL検出器としての視点からアプローチを実施し、BERT+BiGRUの代わりに微調整済みRoBERTaを用いるモデルを構築した。PCLカテゴリ検出において、本モデルはベースラインを上回り、F1スコア0.2531を達成した。さらに、2つのPCLカテゴリを検出するための新たなモデルを提案し、これらは提出されたモデルを上回る性能を示した。