
要約
本論文では、シドニー大学がWMT 2019の共有ニュース翻訳タスクに提出した内容について説明します。我々はフィンランド語→英語方向に参加し、全ての参加者の中で最高のBLEUスコア(33.0)を獲得しました。我々のシステムは自己注意機構に基づくTransformerネットワークを基盤としており、その中には学術研究から得られた最新かつ効果的な戦略(例:BPE、逆翻訳、多機能データ選択、データ拡張、貪欲モデルアンサンブル、再順位付け、ConMBRシステム結合、および後処理)が統合されています。さらに、合成コーパスを完全に活用するために新たな拡張手法「サイクル翻訳」(Cycle Translation)とデータ混合戦略「大規模/小規模並列構築」(Big/Small parallel construction)を提案しています。広範な実験結果から、上記技術を追加することでBLEUスコアが継続的に改善されると示されており、最良の結果はベースライン(元の並列コーパスで訓練されたTransformerアンサンブルモデル)よりも約5.3 BLEUスコア上回り、最先端の性能を達成しています。