2ヶ月前

mGPT: 少ショット学習者が多言語化する

Oleh Shliazhko; Alena Fenogenova; Maria Tikhonova; Vladislav Mikhailov; Anastasia Kozlova; Tatiana Shavrina

要約

最近の研究では、自己回帰言語モデルがゼロショットおよびファーソット学習パラダイムを用いて多くのNLPタスクを成功裏に解決できることを報告しており、事前学習済み言語モデルの使用に新たな可能性を開いています。本論文では、60の言語（25の言語家族から選ばれた）を使用してWikipediaとコ lossカルクリーンクロールコーパスで訓練された13億パラメータと130億パラメータを持つ2つの自己回帰GPTのようなモデルについて紹介します。私たちはGPT-2のソースを使用してGPT-3アーキテクチャを再現し、疎な注意機構を採用しました。DeepspeedおよびMegatronフレームワークにより、訓練と推論ステップを効果的に並列化することが可能になりました。得られたモデルは、Facebookが最近公開したXGLMモデルと同等の性能を示し、より多くの言語に対応し、CIS諸国やロシアの少数民族言語におけるNLPの可能性を高めています。本論文では、アーキテクチャ設計の選択理由を詳細に説明し、データ準備パイプラインを徹底的に記述しています。さらに、最適な多言語トークン化戦略を選択するために5つの小型バージョンのモデルを訓練しました。すべての対象言語でのモデルの困惑度（perplexity）を測定し、分類、生成、シーケンスラベリング、知識探査などの広範な多言語タスクで評価を行いました。評価はゼロショットおよびファーソット方法で行われました。また、分類タスクにおいて最新の多言語モデルXGLMとの比較も行っています。本研究で使用したソースコードおよびmGPT XLモデルは公開されています。