9 天前
需要一个小型专业化Language Model?请尽早规划!
David Grangier, Angelos Katharopoulos, Pierre Ablin, Awni Hannun

摘要
大型语言模型虽具备高度的通用性,但其推理成本较高,难以适应小规模推理预算的场景。相比之下,小型模型在推理效率上更具优势,但其容量有限,仅当任务范围被限定在特定领域时,才能实现较优性能。本文探讨如何利用大规模通用预训练数据集与有限的领域专用数据,构建性能良好的专用小型语言模型。我们考虑两种不同场景:其一是可为每项专用任务负担独立的预训练成本;其二是希望以低成本方式将单一预训练模型适配至各项任务。在第一种场景中,我们提出一种基于重要性采样(importance sampling)的有效方法:通过重采样预训练数据集,使其在分布上逼近目标领域的专用数据,并在此基础上训练小型模型。在第二种场景中,我们提出一种新型网络架构——投影网络(Projected Networks, PN):该架构为大型网络,其参数可通过线性投影方式映射至小型网络,从而实现针对特定任务的高效专业化。针对上述两种场景,我们在多个领域、不同训练数据规模及训练预算条件下,均验证了所提方法的实证有效性。