DPCSpell: Ein Transformer-basierter Detektor-Reiniger-Korrektor-Rahmen für die Rechtschreibkorrektur von Bangla und ressourcenarmen indischen Sprachen

Die Korrektur von Rechtschreibfehlern ist die Aufgabe, fehlerhaft geschriebene Wörter in Texten zu identifizieren und zu korrigieren. Sie ist ein potenzielles und aktives Forschungsthema im Bereich der Natürlichen Sprachverarbeitung (Natural Language Processing, NLP), aufgrund zahlreicher Anwendungen im Verständnis menschlicher Sprache. Phonisch oder visuell ähnliche, aber semantisch unterschiedliche Zeichen machen diese Aufgabe in jeder Sprache mühsam. Frühere Bemühungen zur Korrektur von Rechtschreibfehlern im Bengali und in ressourcenarmen indischen Sprachen konzentrierten sich auf regelbasierte, statistische und maschinelles Lernen-basierte Methoden, die wir als eher ineffektiv fanden. Insbesondere zeigten maschinelles Lernen-basierte Ansätze eine überlegene Leistung gegenüber regelbasierten und statistischen Methoden, sind jedoch ineffektiv, da sie jedes Zeichen unabhängig von dessen Richtigkeit korrigieren. In dieser Arbeit schlagen wir einen neuen Detektor-Purifikator-Korrektor-Rahmen (DPCSpell) vor, der auf de-noising-Transformern basiert und die bisherigen Probleme anspricht. Darüber hinaus präsentieren wir eine Methode zur Erstellung eines groß angelegten Korpus aus dem Grundmaterial, die das Problem der Ressourcenknappheit für jede links-rechts geschriebene Sprache löst. Die empirischen Ergebnisse zeigen die Effektivität unseres Ansatzes: Er übertrifft die bisher besten Methoden durch das Erreichen eines exakten Übereinstimmungswerts (Exact Match, EM) von 94,78 %, eines Präzisionswerts von 0,9487, eines Recall-Werts von 0,9478, eines F1-Werts von 0,948, eines F0.5-Werts von 0,9483 und eines modifizierten Genauigkeitswerts (Modified Accuracy, MA) von 95,16 % für die Rechtschreibkorrektur im Bengali. Die Modelle und der Korpus sind öffentlich zugänglich unter https://tinyurl.com/DPCSpell.