17 天前
强化注意力机制中的最短木桶板:提升大语言模型的上下文感知能力以实现高效工具使用
Yuhan Chen, Ang Lv, Ting-En Lin, Changyu Chen, Yuchuan Wu, Fei Huang, Yongbin Li, Rui Yan

摘要
本文揭示了大型语言模型(LLMs)在注意力分配过程中存在一种固有的波形模式,该模式显著影响其在高度依赖上下文感知能力的任务中的表现,例如利用LLMs进行工具调用(tool-use)。具体而言,当关键信息位于注意力波形的波谷区域时,模型可能将其忽略,从而导致性能下降。为解决这一问题,我们提出了一种新型推理方法——注意力分桶(Attention Buckets)。该方法使LLM能够通过多个并行处理流程对输入进行分析,每个流程采用不同的旋转位置编码(rotary position embedding)基础角度,从而生成独特的注意力波形。通过利用某一处理流程的注意力波谷被另一流程的注意力波峰进行补偿,该方法有效提升了模型对不同上下文位置的感知能力,显著降低了关键信息被遗漏的风险。在最大规模的工具调用基准测试中,该方法使7B参数规模的模型达到当前最优性能,接近GPT-4的水平。在其他多个基准测试以及部分检索增强生成(RAG)任务中,这些任务同样要求对上下文内容有深入理解,Attention Buckets也展现出显著的性能提升。