2ヶ月前
マラーティー語の剽窃検出を強化するためのTF-IDFとBERT埋め込みの重み付きアンサンブル手法:低リソース言語処理への応用
Atharva Mutsaddi; Aditya Choudhary

要約
剽窃とは、他人の作品や概念を適切に引用せずに使用し、それらを自作のものとして提示することである。マラーティー語(Marathi)のような地域言語で伝達されるデータ量が増加しているため、低リソース言語向けに堅牢な剽窃検出システムを設計することが重要となっている。双方向エンコーダー表現から変換器(Bidirectional Encoder Representations from Transformers: BERT)などの言語モデルは、テキスト表現と特徴抽出において優れた能力を示しており、意味解析や剽窃検出の重要なツールとなっている。しかし、低リソース言語におけるBERTの応用はまだ十分に研究されておらず、特に剽窃検出の文脈ではその研究が遅れている。本論文では、BERTの文章埋め込みと項頻度-逆文書頻度(Term Frequency-Inverse Document Frequency: TF-IDF)特徴表現を組み合わせて、マラーティー語テキストの剽窃検出精度を向上させる方法を提案する。この手法は、機械学習モデルの重み付け投票アンサンブルを通じて、統計的、意味的、構文的なテキスト特徴を効果的に捉えることができる。