HyperAIHyperAI
il y a 2 mois

Amélioration de la détection du plagiat en marathi grâce à un ensemble pondéré d'embeddings TF-IDF et BERT pour le traitement des langues à ressources limitées

Atharva Mutsaddi; Aditya Choudhary
Amélioration de la détection du plagiat en marathi grâce à un ensemble pondéré d'embeddings TF-IDF et BERT pour le traitement des langues à ressources limitées
Résumé

Le plagiat consiste à utiliser le travail ou les concepts d'une autre personne sans attribution appropriée, en les présentant comme des créations originales. Avec l'augmentation du volume de données communiquées dans des langues régionales telles que le marathi -- l'une des langues régionales de l'Inde -- il est crucial de concevoir des systèmes robustes de détection de plagiat adaptés aux langues à ressources limitées. Les modèles de langage tels que les Représentations bidirectionnelles d'encodeurs à partir de transformateurs (BERT) ont démontré une capacité exceptionnelle en matière de représentation textuelle et d'extraction de caractéristiques, ce qui en fait des outils essentiels pour l'analyse sémantique et la détection de plagiat. Cependant, l'application de BERT aux langues à ressources limitées reste peu explorée, notamment dans le contexte de la détection de plagiat. Cet article présente une méthode visant à améliorer la précision de la détection de plagiat pour les textes en marathi en utilisant des plongements (embeddings) de phrases BERT conjointement avec la représentation des caractéristiques par la fréquence des termes inversement proportionnelle à leur fréquence dans le corpus (TF-IDF). Cette approche capture efficacement les aspects statistiques, sémantiques et syntaxiques des caractéristiques textuelles grâce à un ensemble pondéré par vote de modèles d'apprentissage automatique.

Amélioration de la détection du plagiat en marathi grâce à un ensemble pondéré d'embeddings TF-IDF et BERT pour le traitement des langues à ressources limitées | Articles de recherche récents | HyperAI