2 个月前

ALBERT:一种轻量级的BERT用于自监督语言表示学习

Zhenzhong Lan; Mingda Chen; Sebastian Goodman; Kevin Gimpel; Piyush Sharma; Radu Soricut
ALBERT:一种轻量级的BERT用于自监督语言表示学习
摘要

在预训练自然语言表示时,增加模型规模通常会提高下游任务的性能。然而,在某个点之后,由于GPU/TPU内存限制和更长的训练时间,进一步扩大模型变得越来越困难。为了解决这些问题,我们提出了两种参数减少技术,以降低内存消耗并加快BERT的训练速度。广泛的实验证据表明,我们提出的方法相比原始的BERT模型具有更好的扩展性。此外,我们还使用了一种专注于建模句间连贯性的自监督损失函数,并证明它对多句子输入的下游任务持续有益。因此,我们的最佳模型在GLUE、RACE和SQuAD基准测试中建立了新的最先进结果,同时其参数量少于BERT-large。代码和预训练模型可在https://github.com/google-research/ALBERT获取。

ALBERT:一种轻量级的BERT用于自监督语言表示学习 | 最新论文 | HyperAI超神经