Rechtschreibkorrektur mit Denoising-Transformer

Wir stellen eine neuartige Methode zur Rechtschreibkorrektur von kurzen Eingabezeichenfolgen vor, wie z.B. Suchanfragen oder einzelne Wörter. Im Zentrum dieser Methode steht ein Verfahren zur Generierung künstlicher Tippfehler, die den Fehlermustern von Menschen sehr nahekommen. Dieses Verfahren wird verwendet, um das Produktions-Rechtschreibkorrekturmodell auf Basis einer Transformer-Architektur zu trainieren. Das Modell wird derzeit im HubSpot-Produktsuchlauf eingesetzt. Wir zeigen, dass unser Ansatz zur Tippfehlergenerierung überlegen ist gegenüber der weit verbreiteten Praxis, Rauschen hinzuzufügen, was menschliche Muster außer Acht lässt. Darüber hinaus demonstrieren wir, wie unser Ansatz auf ressourcenarme Szenarien erweitert werden kann und Rechtschreibkorrekturmodelle für die arabische, griechische, russische und setswanische Sprache ohne Verwendung etikettierter Daten trainiert werden können.