HyperAIHyperAI

Command Palette

Search for a command to run...

事前学習された言語モデルを用いた並列コーパスのフィルタリング

Boliang Zhang Ajay Nagesh Kevin Knight

概要

ウェブクローリングによって得られたデータは、機械翻訳モデルの学習に用いるための並列コーパスの優れたソースを提供する。このデータは自動的に収集可能であるが、極めてノイズが多いという問題がある。近年の研究では、ニューラル機械翻訳システムが従来の統計的機械翻訳手法よりもノイズに対してより敏感であることが示されている。本稿では、事前学習された言語モデルを活用して、ウェブクローリングによるコーパスからノイズの多い文対をフィルタリングする新しいアプローチを提案する。我々は、BERTの多言語能力を活用して文の並列性を測定し、生成型事前学習(GPT)言語モデルをドメインフィルタとして用いてデータドメインのバランスを調整する。提案手法は、WMT 2018並列コーパスフィルタリング共同タスクおよび自ら構築した日本語-中国語並列コーパスを用いて評価された。その結果、ベースライン手法を著しく上回り、新たな最良性能(SOTA)を達成した。無教師設定においても、トップ1の教師あり手法と同等の性能を達成した。さらに、本研究で公開したウェブクローリングによる日本語-中国語並列コーパスを用いた評価も実施した。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています