
要約
本稿では、希望スピーチ検出(hope speech detection)というタスクに事前学習モデルを活用するアプローチについて述べる。我々は、EACL2021にて開催されたLT-EDI-2021のTask 2:Equality, Diversity and Inclusionをテーマとする希望スピーチ検出に参加した。本タスクの目的は、希望スピーチの存在を予測するとともに、データセット内に含まれる同一言語に属さないサンプルの存在を検出することにある。本稿では、英語における希望スピーチ検出のためのRoBERTaモデルのファインチューニング手法、および低リソースなインド系言語であるタミル語とマラヤーラム語における希望スピーチ検出のためのXLM-RoBERTaモデルのファインチューニング手法を詳述する。これらのアプローチにより、テキストを「希望スピーチ」「非希望スピーチ」「非言語」の三クラスに分類する性能を評価した。その結果、英語ではF1スコア0.93で1位、タミル語ではF1スコア0.61で1位、マラヤーラム語ではF1スコア0.83で3位を達成した。