Command Palette

Search for a command to run...

14 天前

何时进行集成:识别用于稳定且快速LLM集成的token级点

Heecheol Yun Kwangmin Ki Junghyun Lee Eunho Yang

何时进行集成:识别用于稳定且快速LLM集成的token级点

摘要

集成大型语言模型(LLMs)作为一种有前景的方法,正受到广泛关注,其通过利用各模型的互补优势,有望超越单个模型的性能。特别是,通过聚合多个模型的下一个词元概率分布来选择下一个词元的方法,在多种任务中已被证明是有效的。然而,尽管在生成短文本时表现良好,该方法在长文本生成任务中的应用仍鲜有研究。本文表明,在长文本生成中使用现有集成方法时,必须谨慎选择集成位置,因为标准做法——在每个词元处进行集成——往往会导致性能下降。我们识别出两个决定集成位置的关键因素:不同模型之间的分词不一致,以及它们在下一个词元概率分布上的共识程度。基于此,我们提出 SAFE(Stable And Fast LLM Ensembling)框架,该框架通过联合考虑上述两个因素,实现选择性集成。为进一步提升稳定性,我们引入了一种概率锐化策略,将表示同一单词的多个子词词元上分散的概率集中到一个代表性词元上。在包括 MATH500 和 BBH 在内的多个基准测试上的实验结果表明,SAFE 在准确率和效率方面均优于现有方法,即使仅对少于 1% 的词元进行集成,也能实现显著性能提升。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
何时进行集成:识别用于稳定且快速LLM集成的token级点 | 论文 | HyperAI超神经