17 天前

基于像素的语言建模

Phillip Rust, Jonas F. Lotz, Emanuele Bugliarello, Elizabeth Salesky, Miryam de Lhoneux, Desmond Elliott

摘要

语言模型通常定义在有限的输入集合之上，当试图扩展支持的语言数量时，这一特性会导致词汇表瓶颈。解决这一瓶颈往往会在嵌入矩阵所能表示的内容与输出层的计算开销之间形成权衡。本文提出 PIXEL（Pixel-based Encoder of Language），一种克服上述两类问题的预训练语言模型。PIXEL 将文本渲染为图像，从而基于字形相似性或像素的协同激活，实现跨语言表征的迁移。与传统模型通过预测词元分布进行训练不同，PIXEL 的目标是重建被掩码图像块的像素。我们在与 BERT 相同的英文数据上预训练了一个参数量为 8600 万的 PIXEL 模型，并在多种语言类型、包括多种非拉丁字母文字的语法和语义任务上进行评估。结果表明，对于预训练数据中未包含的书写系统，PIXEL 在语法和语义处理任务上的表现显著优于 BERT；然而，在拉丁字母文字上，PIXEL 的性能略逊于 BERT。此外，我们发现 PIXEL 在面对字形攻击和语言混用（linguistic code-switching）时表现出更强的鲁棒性，进一步验证了以像素为基本单元建模语言所带来的优势。