Parallele Korpus-Filterung mittels vortrainierten Sprachmodellen

Web-crawled-Daten stellen eine gute Quelle für parallele Korpora zur Schulung von Maschinenübersetzungsmodellen dar. Sie werden automatisch erfasst, sind jedoch äußerst laut, und neuere Arbeiten zeigen, dass neuronale Maschinenübersetzungsmodelle empfindlicher gegenüber Rauschen sind als traditionelle statistische Maschinenübersetzungsverfahren. In diesem Paper stellen wir einen neuartigen Ansatz zur Filterung von lautenden Satzpaaren aus web-crawled Korpora mittels vortrainierter Sprachmodelle vor. Wir messen die Satzparallelität, indem wir die mehrsprachige Fähigkeit von BERT nutzen, und verwenden das Generative Pre-training (GPT)-Sprachmodell als Domänenfilter, um die Verteilung der Datendomänen zu balancieren. Wir evaluieren die vorgeschlagene Methode im Rahmen der WMT 2018 Parallel Corpus Filtering Shared Task sowie an unserem eigenen web-crawled japanisch-chinesischen parallelen Korpus. Unser Ansatz übertrifft die Baselines erheblich und erreicht eine neue State-of-the-Art-Leistung. In einer unsupervised-Einstellung erzielt unsere Methode vergleichbare Ergebnisse wie die führende supervised-Methode. Zudem evaluieren wir unsere Methode an einem weiteren web-crawled japanisch-chinesischen parallelen Korpus, das wir öffentlich zugänglich machen.