HyperAIHyperAI

Command Palette

Search for a command to run...

Parallele Korpus-Filterung mittels vortrainierten Sprachmodellen

Boliang Zhang Ajay Nagesh Kevin Knight

Zusammenfassung

Web-crawled-Daten stellen eine gute Quelle für parallele Korpora zur Schulung von Maschinenübersetzungsmodellen dar. Sie werden automatisch erfasst, sind jedoch äußerst laut, und neuere Arbeiten zeigen, dass neuronale Maschinenübersetzungsmodelle empfindlicher gegenüber Rauschen sind als traditionelle statistische Maschinenübersetzungsverfahren. In diesem Paper stellen wir einen neuartigen Ansatz zur Filterung von lautenden Satzpaaren aus web-crawled Korpora mittels vortrainierter Sprachmodelle vor. Wir messen die Satzparallelität, indem wir die mehrsprachige Fähigkeit von BERT nutzen, und verwenden das Generative Pre-training (GPT)-Sprachmodell als Domänenfilter, um die Verteilung der Datendomänen zu balancieren. Wir evaluieren die vorgeschlagene Methode im Rahmen der WMT 2018 Parallel Corpus Filtering Shared Task sowie an unserem eigenen web-crawled japanisch-chinesischen parallelen Korpus. Unser Ansatz übertrifft die Baselines erheblich und erreicht eine neue State-of-the-Art-Leistung. In einer unsupervised-Einstellung erzielt unsere Methode vergleichbare Ergebnisse wie die führende supervised-Methode. Zudem evaluieren wir unsere Methode an einem weiteren web-crawled japanisch-chinesischen parallelen Korpus, das wir öffentlich zugänglich machen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp