17 天前

语言模型是通用接口

Yaru Hao, Haoyu Song, Li Dong, Shaohan Huang, Zewen Chi, Wenhui Wang, Shuming Ma, Furu Wei

摘要

基础模型因其在众多下游应用中的卓越表现而受到广泛关注。尽管在模型架构上已呈现出显著的趋同趋势，但大多数预训练模型仍主要针对特定任务或模态进行开发。在本工作中，我们提出将语言模型作为连接各类基础模型的通用接口。一组预训练编码器负责感知多种模态（如视觉与语言信息），并与一个语言模型相连接，该语言模型充当通用任务层。我们提出了一种半因果语言建模目标，用于联合预训练这一接口与模块化编码器。该方法融合了因果建模与非因果建模的优势与能力，实现了两者的最佳结合。具体而言，所提出的方法不仅继承了因果语言建模在上下文学习（in-context learning）和开放式生成方面的优势，同时由于采用双向编码器结构，也更有利于后续微调（fine-tuning）。更重要的是，我们的方法能够无缝整合上述多种能力，例如支持在微调后的编码器上实现上下文学习或指令遵循。在多种仅语言及视觉-语言基准任务上的实验结果表明，我们的模型在微调性能、零样本泛化以及少样本学习方面均优于或媲美专门设计的模型。