HyperAIHyperAI

Command Palette

Search for a command to run...

需要一个小型专业化Language Model?请尽早规划!

David Grangier Angelos Katharopoulos Pierre Ablin Awni Hannun

摘要

大型语言模型虽具备高度的通用性,但其推理成本较高,难以适应小规模推理预算的场景。相比之下,小型模型在推理效率上更具优势,但其容量有限,仅当任务范围被限定在特定领域时,才能实现较优性能。本文探讨如何利用大规模通用预训练数据集与有限的领域专用数据,构建性能良好的专用小型语言模型。我们考虑两种不同场景:其一是可为每项专用任务负担独立的预训练成本;其二是希望以低成本方式将单一预训练模型适配至各项任务。在第一种场景中,我们提出一种基于重要性采样(importance sampling)的有效方法:通过重采样预训练数据集,使其在分布上逼近目标领域的专用数据,并在此基础上训练小型模型。在第二种场景中,我们提出一种新型网络架构——投影网络(Projected Networks, PN):该架构为大型网络,其参数可通过线性投影方式映射至小型网络,从而实现针对特定任务的高效专业化。针对上述两种场景,我们在多个领域、不同训练数据规模及训练预算条件下,均验证了所提方法的实证有效性。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供