HyperAIHyperAI
vor 2 Monaten

Die Verbesserung der Plagiatserkennung im Marathi durch ein gewichtetes Ensemble von TF-IDF und BERT-Embeddings für die Verarbeitung von Ressourcenarmen Sprachen

Atharva Mutsaddi; Aditya Choudhary
Die Verbesserung der Plagiatserkennung im Marathi durch ein gewichtetes Ensemble von TF-IDF und BERT-Embeddings für die Verarbeitung von Ressourcenarmen Sprachen
Abstract

Plagiatsvorwürfe beinhalten die Nutzung von fremden Werken oder Konzepten ohne angemessene Quellenangabe und deren Vorstellung als originale Schöpfungen. Mit der zunehmenden Menge an Daten, die in regionalen Sprachen wie Marathi – einer der regionalen Sprachen Indiens – kommuniziert werden, ist es entscheidend, robuste Plagiatserkennungssysteme für sprachliche Ressourcen mit geringer Verfügbarkeit zu entwickeln. Sprachmodelle wie die bidirektionale Codierungsdarstellung durch Transformer (Bidirectional Encoder Representations from Transformers, BERT) haben außergewöhnliche Fähigkeiten in der Textrepräsentation und Merkmalsextraktion gezeigt, was sie zu unverzichtbaren Werkzeugen für semantische Analysen und Plagiatserkennung macht. Allerdings bleibt die Anwendung von BERT für sprachliche Ressourcen mit geringer Verfügbarkeit weitgehend unerforscht, insbesondere im Kontext der Plagiatserkennung. Diese Arbeit stellt eine Methode vor, um die Genauigkeit der Plagiatserkennung für marathische Texte durch Verwendung von BERT-Satz-Embeddings in Kombination mit der Merkmalsrepräsentation Term Frequency-Inverse Document Frequency (TF-IDF) zu verbessern. Dieser Ansatz erfasst effektiv statistische, semantische und syntaktische Aspekte der Textmerkmale durch ein gewichtetes Voting-Ensemble maschineller Lernmodelle.

Die Verbesserung der Plagiatserkennung im Marathi durch ein gewichtetes Ensemble von TF-IDF und BERT-Embeddings für die Verarbeitung von Ressourcenarmen Sprachen | Neueste Forschungsarbeiten | HyperAI