17日前

AlexaTM 20B:大規模なマルチリンガルSeq2Seqモデルを用いたFew-Shot学習

Saleh Soltan, Shankar Ananthakrishnan, Jack FitzGerald, Rahul Gupta, Wael Hamza, Haidar Khan, Charith Peris, Stephen Rawls, Andy Rosenbaum, Anna Rumshisky, Chandana Satya Prakash, Mukund Sridhar, Fabian Triefenbach, Apurv Verma, Gokhan Tur, Prem Natarajan
AlexaTM 20B:大規模なマルチリンガルSeq2Seqモデルを用いたFew-Shot学習
要約

本研究では、ノイズ除去と因果言語モデル(CLM)の混合タスクで事前学習された多言語大規模シーケンス・トゥ・シーケンス(seq2seq)モデルが、さまざまなタスクにおいてデコーダーのみのモデルよりも効率的な少サンプル学習(few-shot learning)能力を有することを示す。特に、200億パラメータの多言語seq2seqモデル「Alexa Teacher Model(AlexaTM 20B)」を訓練し、1ショット要約タスクにおいて、はるかに大きな5400億パラメータのPaLMデコーダーモデル(540B)を上回る最先端(SOTA)の性能を達成することを実証した。また、AlexaTM 20Bは、Flores-101データセットにおいて、モデルが対応するほぼすべての言語ペア(アラビア語、英語、フランス語、ドイツ語、ヒンディ語、イタリア語、日本語、マラーティ語、ポルトガル語、スペイン語、タミル語、テルグ語)において、特にリソースが限られた言語の1ショット機械翻訳タスクでもSOTA性能を達成した。さらに、ゼロショット設定においても、AlexaTM 20BはGPT-3(1750億パラメータ)を上回り、SuperGLUEおよびSQuADv2データセットで優れた性能を示し、多言語タスクであるXNLI、XCOPA、Paws-X、XWinogradにおいてもSOTAを達成した。総合的に、本研究の結果は、大規模言語モデル(LLM)の訓練において、seq2seqモデルがデコーダーのみのモデルに対する強力な代替手段となり得ることを強く示唆している。