誰も取り残されない:人間中心の機械翻訳のスケーリング

グローバルな言語障壁の解消を目的として、機械翻訳は今日の人工知能研究における重要なテーマとして確立されている。しかし、こうした取り組みは少数の主要言語に集中しており、大多数の低リソース言語は放置された状態にある。200言語という壁を打ち破りつつ、安全で高品質な翻訳結果を保ち、倫理的配慮も念頭に置くには、どのような技術的・戦略的アプローチが必要だろうか?本研究『No Language Left Behind』では、まずネイティブスピーカーへの探索的インタビューを通じて、低リソース言語の翻訳支援の必要性を文脈化した。その後、高リソース言語と低リソース言語の性能差を縮小することを目的としたデータセットおよびモデルの構築に取り組んだ。具体的には、スパースにゲート制御されるエキスパートの混合(Sparsely Gated Mixture of Experts)を基盤とする条件付き計算モデルを、低リソース言語に特化した新規かつ効果的なデータマイニング手法により収集したデータで学習させた。さらに、数千の翻訳タスクにわたる学習において過学習を抑制するため、複数のアーキテクチャ的および学習プロセス上の改善を提案した。本研究の核となる評価では、人間が翻訳したベンチマーク「Flores-200」を用いて、4万を超える異なる翻訳方向について性能を評価し、またFlores-200に含まれるすべての言語をカバーする新規の毒性評価ベンチマークと人間評価を組み合わせることで、翻訳の安全性を総合的に検証した。結果として、従来の最先端モデルと比較して、BLEUスコアで44%の向上を達成し、汎用翻訳システムの実現に向けた重要な基盤を築いた。最後に、本研究で提示したすべての貢献をオープンソース化し、GitHub(https://github.com/facebookresearch/fairseq/tree/nllb)にて公開している。