16 天前

CoLT5:基于条件计算的更快长程Transformer

Joshua Ainslie, Tao Lei, Michiel de Jong, Santiago Ontañón, Siddhartha Brahma, Yury Zemlyanskiy, David Uthus, Mandy Guo, James Lee-Thorp, Yi Tay, Yun-Hsuan Sung, Sumit Sanghai
CoLT5:基于条件计算的更快长程Transformer
摘要

许多自然语言处理任务得益于长输入,但使用Transformer模型处理长文档时成本高昂——这不仅源于注意力机制的二次方复杂度,还因为前馈网络和投影层需作用于每个token。然而,在长文档中,并非所有token都具有同等重要性。为此,我们提出CoLT5,一种面向长输入的Transformer模型,其核心思想基于上述直觉:通过引入条件计算机制,将更多计算资源集中分配给重要token,从而在前馈层和注意力层中实现更高效的资源利用。实验表明,CoLT5在性能上优于LongT5,同时具备显著更快的训练与推理速度,在长输入SCROLLS基准测试中达到当前最优(SOTA)水平。此外,CoLT5能够高效且可扩展地处理极长输入,其性能在输入长度高达64k时仍表现出显著提升。

CoLT5:基于条件计算的更快长程Transformer | 最新论文 | HyperAI超神经