6 个月前

摘要

大型语言模型虽具备高度的通用性，但其推理成本较高，难以适应小规模推理预算的场景。相比之下，小型模型在推理效率上更具优势，但其容量有限，仅当任务范围被限定在特定领域时，才能实现较优性能。本文探讨如何利用大规模通用预训练数据集与有限的领域专用数据，构建性能良好的专用小型语言模型。我们考虑两种不同场景：其一是可为每项专用任务负担独立的预训练成本；其二是希望以低成本方式将单一预训练模型适配至各项任务。在第一种场景中，我们提出一种基于重要性采样（importance sampling）的有效方法：通过重采样预训练数据集，使其在分布上逼近目标领域的专用数据，并在此基础上训练小型模型。在第二种场景中，我们提出一种新型网络架构——投影网络（Projected Networks, PN）：该架构为大型网络，其参数可通过线性投影方式映射至小型网络，从而实现针对特定任务的高效专业化。针对上述两种场景，我们在多个领域、不同训练数据规模及训练预算条件下，均验证了所提方法的实证有效性。

源 PDF