HyperAIHyperAI

Command Palette

Search for a command to run...

MoNoise: Modellierung von Rauschen mittels eines modularen Normalisierungssystems

Rob van der Goot Gertjan van Noord

Zusammenfassung

Wir schlagen MoNoise vor: ein Normalisierungsmodell, das sich auf Generalisierbarkeit und Effizienz konzentriert. Es soll leicht wiederverwendbar und anpassbar sein. Die Normalisierung ist die Aufgabe, Texte aus einem nichtkanonischen Bereich in einen kanonischeren Bereich zu übersetzen; in unserem Fall von sozialen Medien-Daten ins Standarddeutsch. Unser vorgeschlagenes Modell basiert auf einer modularen Kandidatenerzeugung, bei der jedes Modul für eine andere Art von Normalisierungsaktion verantwortlich ist. Die wichtigsten Erzeugungsmodule sind ein Rechtschreibkorrektursystem und ein Modul für Wortvektoren (word embeddings). Abhängig von der Definition der Normalisierungsaufgabe kann eine statische Suchliste entscheidend für die Leistung sein. Wir trainieren einen Random-Forest-Klassifikator, um die Kandidaten zu bewerten, der sich gut auf alle verschiedenen Arten von Normalisierungsaktionen verallgemeinern lässt. Die meisten Merkmale für die Bewertung stammen aus den Erzeugungsmodulen; neben diesen Merkmalen erweisen sich N-Gram-Merkmale als wichtige Informationsquelle. Wir zeigen, dass MoNoise verschiedene Normalisierungsbenchmarks für Englisch und Niederländisch übertrifft, bei denen die Aufgabe der Normalisierung jeweils unterschiedlich definiert wird.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp