HyperAIHyperAI

Command Palette

Search for a command to run...

Die Verbesserung der Plagiatserkennung im Marathi durch ein gewichtetes Ensemble von TF-IDF und BERT-Embeddings für die Verarbeitung von Ressourcenarmen Sprachen

Atharva Mutsaddi; Aditya Choudhary

Zusammenfassung

Plagiatsvorwürfe beinhalten die Nutzung von fremden Werken oder Konzepten ohne angemessene Quellenangabe und deren Vorstellung als originale Schöpfungen. Mit der zunehmenden Menge an Daten, die in regionalen Sprachen wie Marathi – einer der regionalen Sprachen Indiens – kommuniziert werden, ist es entscheidend, robuste Plagiatserkennungssysteme für sprachliche Ressourcen mit geringer Verfügbarkeit zu entwickeln. Sprachmodelle wie die bidirektionale Codierungsdarstellung durch Transformer (Bidirectional Encoder Representations from Transformers, BERT) haben außergewöhnliche Fähigkeiten in der Textrepräsentation und Merkmalsextraktion gezeigt, was sie zu unverzichtbaren Werkzeugen für semantische Analysen und Plagiatserkennung macht. Allerdings bleibt die Anwendung von BERT für sprachliche Ressourcen mit geringer Verfügbarkeit weitgehend unerforscht, insbesondere im Kontext der Plagiatserkennung. Diese Arbeit stellt eine Methode vor, um die Genauigkeit der Plagiatserkennung für marathische Texte durch Verwendung von BERT-Satz-Embeddings in Kombination mit der Merkmalsrepräsentation Term Frequency-Inverse Document Frequency (TF-IDF) zu verbessern. Dieser Ansatz erfasst effektiv statistische, semantische und syntaktische Aspekte der Textmerkmale durch ein gewichtetes Voting-Ensemble maschineller Lernmodelle.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp