2 个月前
通过将Token生成视为分类任务来打破LLM社区的天花板以实现集成
Yao-Ching Yu; Chun-Chih Kuo; Ziqi Ye; Yu-Cheng Chang; Yueh-Se Li

摘要
将多个模型进行集成一直是提高现有性能极限的有效方法,并且在分类任务中通过简单地平均多个分类器的分类概率向量来实现更高的准确性,这种方法被广泛采用。然而,在蓬勃发展的开源大语言模型(LLM)社区中,集成方法较为罕见,通常仅限于对大语言模型生成的全文输出进行集成,例如通过排名器选择最佳输出,这导致了在令牌级别上的概率信息未能得到充分利用。本文中,我们将大语言模型生成每个令牌的过程视为分类任务(GaC)来进行集成。这种方法充分挖掘了每个生成步骤中的概率信息,并更好地防止了大语言模型在早期生成错误令牌从而引发累积错误。实验中,我们在多个基准测试上对最先进的大语言模型进行了集成,包括考试、数学和推理等领域,并观察到我们的方法打破了现有的社区性能上限。此外,我们还发现答案中的大多数令牌都是简单的,并不会影响最终答案的正确性。因此,我们也尝试了仅对关键令牌进行集成,结果表明该方法在各个基准测试中均能以更低的延迟获得更好的性能。