17 天前
语言模型是通用接口
Yaru Hao, Haoyu Song, Li Dong, Shaohan Huang, Zewen Chi, Wenhui Wang, Shuming Ma, Furu Wei

摘要
基础模型因其在众多下游应用中的卓越表现而受到广泛关注。尽管在模型架构上已呈现出显著的趋同趋势,但大多数预训练模型仍主要针对特定任务或模态进行开发。在本工作中,我们提出将语言模型作为连接各类基础模型的通用接口。一组预训练编码器负责感知多种模态(如视觉与语言信息),并与一个语言模型相连接,该语言模型充当通用任务层。我们提出了一种半因果语言建模目标,用于联合预训练这一接口与模块化编码器。该方法融合了因果建模与非因果建模的优势与能力,实现了两者的最佳结合。具体而言,所提出的方法不仅继承了因果语言建模在上下文学习(in-context learning)和开放式生成方面的优势,同时由于采用双向编码器结构,也更有利于后续微调(fine-tuning)。更重要的是,我们的方法能够无缝整合上述多种能力,例如支持在微调后的编码器上实现上下文学习或指令遵循。在多种仅语言及视觉-语言基准任务上的实验结果表明,我们的模型在微调性能、零样本泛化以及少样本学习方面均优于或媲美专门设计的模型。