HyperAIHyperAI

Command Palette

Search for a command to run...

mGPT: 少ショット学習者が多言語化する

Oleh Shliazhko extsuperscript1,* Alena Fenogenova extsuperscript2 Maria Tikhonova extsuperscript2,3 Anastasia Kozlova extsuperscript2 Vladislav Mikhailov extsuperscript2,*† Tatiana Shayrina extsuperscript2,4,5,6,*

概要

最近の研究では、自己回帰言語モデルがゼロショットおよびファーソット学習パラダイムを用いて多くのNLPタスクを成功裏に解決できることを報告しており、事前学習済み言語モデルの使用に新たな可能性を開いています。本論文では、60の言語(25の言語家族から選ばれた)を使用してWikipediaとコ lossカルクリーンクロールコーパスで訓練された13億パラメータと130億パラメータを持つ2つの自己回帰GPTのようなモデルについて紹介します。私たちはGPT-2のソースを使用してGPT-3アーキテクチャを再現し、疎な注意機構を採用しました。DeepspeedおよびMegatronフレームワークにより、訓練と推論ステップを効果的に並列化することが可能になりました。得られたモデルは、Facebookが最近公開したXGLMモデルと同等の性能を示し、より多くの言語に対応し、CIS諸国やロシアの少数民族言語におけるNLPの可能性を高めています。本論文では、アーキテクチャ設計の選択理由を詳細に説明し、データ準備パイプラインを徹底的に記述しています。さらに、最適な多言語トークン化戦略を選択するために5つの小型バージョンのモデルを訓練しました。すべての対象言語でのモデルの困惑度(perplexity)を測定し、分類、生成、シーケンスラベリング、知識探査などの広範な多言語タスクで評価を行いました。評価はゼロショットおよびファーソット方法で行われました。また、分類タスクにおいて最新の多言語モデルXGLMとの比較も行っています。本研究で使用したソースコードおよびmGPT XLモデルは公開されています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています