
要約
ソーシャルプラットフォーム上の敵対的コンテンツの増加は、適切な検出手法の導入が急務となっている。これにより、適切な対応措置を講じてこれらのコンテンツを抑制することが可能となる。近年、英語圏においてオンライン上の敵対的コンテンツ問題に対処するための多くの研究が進められているが、インド語系言語における同様の研究は依然として極めて限られている。本稿では、ヒンディー語デヴァナガリ文字によるソーシャルメディア(例:Twitter、Facebookなど)投稿を「敵対的」と「非敵対的」に分類するための転移学習ベースのアプローチを提案する。さらに、敵対的投稿に対して、それが「憎悪的(Hateful)」「偽情報(Fake)」「中傷(Defamation)」「不快な発言(Offensive)」のいずれに該当するかを詳細に分析する。本研究では、ヒンディー語データで事前学習されたアテンションベースの事前学習モデルを用い、敵対的/非敵対的分類を補助タスク(Auxiliary Task)として設定し、その特徴量を統合することで、下位タスクの分類性能を向上させている。このアプローチにより、アンサンブルや複雑な前処理を一切用いずに、高い堅牢性と一貫性を有するモデルを構築した。本手法の有効性は、CONSTRAINT-2021の共通タスク「敵対的投稿検出」において実証され、重み付き細粒度F1スコア(Weighted Fine-Grained F1 Score)において第3位という優れた成績を収めた。