
要約
ウェブ、文書、その他のソースから自動的に取得された大規模な並行コーパスは、しばしば品質に悪影響を及ぼす可能性のある多くの破損部分を含んでいます。本論文では、データに見られる頻繁な問題とそのようなデータがニューラル機械翻訳システムに与える影響について説明し、それらの問題を特定し対処する方法も述べています。これらの解決策は、入力コーパスから問題のある文を除去する一連のスクリプトにまとめられています。
ウェブ、文書、その他のソースから自動的に取得された大規模な並行コーパスは、しばしば品質に悪影響を及ぼす可能性のある多くの破損部分を含んでいます。本論文では、データに見られる頻繁な問題とそのようなデータがニューラル機械翻訳システムに与える影響について説明し、それらの問題を特定し対処する方法も述べています。これらの解決策は、入力コーパスから問題のある文を除去する一連のスクリプトにまとめられています。