17 天前
AlexaTM 20B:基于大规模多语言 Seq2Seq 模型的少样本学习
Saleh Soltan, Shankar Ananthakrishnan, Jack FitzGerald, Rahul Gupta, Wael Hamza, Haidar Khan, Charith Peris, Stephen Rawls, Andy Rosenbaum, Anna Rumshisky, Chandana Satya Prakash, Mukund Sridhar, Fabian Triefenbach, Apurv Verma, Gokhan Tur, Prem Natarajan

摘要
在本项研究中,我们证明了在去噪任务与因果语言建模(Causal Language Modeling, CLM)混合数据上预训练的多语言大规模序列到序列(seq2seq)模型,在多种任务上作为少样本学习者(few-shot learners)的效率显著优于仅解码器架构的模型。具体而言,我们训练了一个参数量达200亿的多语言seq2seq模型——Alexa教师模型(AlexaTM 20B),并验证其在单样本摘要任务(1-shot summarization)中达到当前最优(SOTA)性能,超越了参数规模大得多的5400亿参数PaLM解码器模型。此外,AlexaTM 20B在单样本机器翻译任务中同样取得SOTA表现,尤其在低资源语言上优势显著,覆盖了模型支持的几乎所有语言对(阿拉伯语、英语、法语、德语、印地语、意大利语、日语、马拉地语、葡萄牙语、西班牙语、泰米尔语和泰卢固语),在Flores-101数据集上表现突出。在零样本(zero-shot)设置下,AlexaTM 20B在SuperGLUE与SQuADv2数据集上的表现优于GPT-3(1750亿参数),并在多语言任务如XNLI、XCOPA、Paws-X和XWinograd上实现了SOTA性能。总体而言,我们的研究结果有力地表明,seq2seq模型为大规模语言模型(LLM)训练提供了一种强大且极具潜力的替代方案,相较于仅解码器架构模型具有显著优势。