HyperAIHyperAI

Command Palette

Search for a command to run...

AlexaTM 20B:大規模なマルチリンガルSeq2Seqモデルを用いたFew-Shot学習

概要

本研究では、ノイズ除去と因果言語モデル(CLM)の混合タスクで事前学習された多言語大規模シーケンス・トゥ・シーケンス(seq2seq)モデルが、さまざまなタスクにおいてデコーダーのみのモデルよりも効率的な少サンプル学習(few-shot learning)能力を有することを示す。特に、200億パラメータの多言語seq2seqモデル「Alexa Teacher Model(AlexaTM 20B)」を訓練し、1ショット要約タスクにおいて、はるかに大きな5400億パラメータのPaLMデコーダーモデル(540B)を上回る最先端(SOTA)の性能を達成することを実証した。また、AlexaTM 20Bは、Flores-101データセットにおいて、モデルが対応するほぼすべての言語ペア(アラビア語、英語、フランス語、ドイツ語、ヒンディ語、イタリア語、日本語、マラーティ語、ポルトガル語、スペイン語、タミル語、テルグ語)において、特にリソースが限られた言語の1ショット機械翻訳タスクでもSOTA性能を達成した。さらに、ゼロショット設定においても、AlexaTM 20BはGPT-3(1750億パラメータ)を上回り、SuperGLUEおよびSQuADv2データセットで優れた性能を示し、多言語タスクであるXNLI、XCOPA、Paws-X、XWinogradにおいてもSOTAを達成した。総合的に、本研究の結果は、大規模言語モデル(LLM)の訓練において、seq2seqモデルがデコーダーのみのモデルに対する強力な代替手段となり得ることを強く示唆している。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています