
要約
ウェブクローリングによって得られたデータは、機械翻訳モデルの学習に用いるための並列コーパスの優れたソースを提供する。このデータは自動的に収集可能であるが、極めてノイズが多いという問題がある。近年の研究では、ニューラル機械翻訳システムが従来の統計的機械翻訳手法よりもノイズに対してより敏感であることが示されている。本稿では、事前学習された言語モデルを活用して、ウェブクローリングによるコーパスからノイズの多い文対をフィルタリングする新しいアプローチを提案する。我々は、BERTの多言語能力を活用して文の並列性を測定し、生成型事前学習(GPT)言語モデルをドメインフィルタとして用いてデータドメインのバランスを調整する。提案手法は、WMT 2018並列コーパスフィルタリング共同タスクおよび自ら構築した日本語-中国語並列コーパスを用いて評価された。その結果、ベースライン手法を著しく上回り、新たな最良性能(SOTA)を達成した。無教師設定においても、トップ1の教師あり手法と同等の性能を達成した。さらに、本研究で公開したウェブクローリングによる日本語-中国語並列コーパスを用いた評価も実施した。