
要約
機械翻訳は訓練データの量と質に非常に敏感であり、これにより大規模な並行コーパスの収集とフィルタリングに対する関心が高まっています。本論文では、この課題を解決するための新しい方法として、多言語文埋め込みに基づく手法を提案します。従来のアプローチは、コサイン類似度に対するハード閾値を使用した最近傍探索に依存していましたが、提案手法はこの尺度のスケール不整合を考慮し、与えられた文ペアとその最寄り候補との間のマージンに着目します。実験結果は既存手法に対して大幅な改善を示しています。BUCCマイニング課題とUN再構築課題において、それぞれ10ポイント以上のF1値と30ポイント以上の精度向上を達成しました。提案手法を用いて英独ParaCrawlコーパスをフィルタリングした結果、newstest2014で31.2 BLEUポイントを獲得し、最良の公式フィルタリング版よりも1ポイント以上改善しました。