vor einem Monat
Einfluss der Korpusqualität auf neuronale maschinelle Übersetzung
Matīss Rikters

Abstract
Große parallele Korpora, die automatisch aus dem Web, Dokumenten oder anderen Quellen gewonnen werden, weisen oft viele fehlerhafte Teile auf, die die Qualität der Systeme und Modelle, die von diesen Korpora lernen, negativ beeinflussen. Dieser Artikel beschreibt häufig auftretende Probleme in den Daten und wie diese Daten neuronale Maschinübersetzungssysteme beeinflussen, sowie Methoden zur Identifizierung und Bewältigung dieser Probleme. Die Lösungen werden in einer Reihe von Skripten zusammengefasst, die problematische Sätze aus den Eingabekorpora entfernen.