HyperAIHyperAI

Command Palette

Search for a command to run...

マラーティー語の剽窃検出を強化するためのTF-IDFとBERT埋め込みの重み付きアンサンブル手法:低リソース言語処理への応用

Atharva Mutsaddi; Aditya Choudhary

概要

剽窃とは、他人の作品や概念を適切に引用せずに使用し、それらを自作のものとして提示することである。マラーティー語(Marathi)のような地域言語で伝達されるデータ量が増加しているため、低リソース言語向けに堅牢な剽窃検出システムを設計することが重要となっている。双方向エンコーダー表現から変換器(Bidirectional Encoder Representations from Transformers: BERT)などの言語モデルは、テキスト表現と特徴抽出において優れた能力を示しており、意味解析や剽窃検出の重要なツールとなっている。しかし、低リソース言語におけるBERTの応用はまだ十分に研究されておらず、特に剽窃検出の文脈ではその研究が遅れている。本論文では、BERTの文章埋め込みと項頻度-逆文書頻度(Term Frequency-Inverse Document Frequency: TF-IDF)特徴表現を組み合わせて、マラーティー語テキストの剽窃検出精度を向上させる方法を提案する。この手法は、機械学習モデルの重み付け投票アンサンブルを通じて、統計的、意味的、構文的なテキスト特徴を効果的に捉えることができる。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています