Command Palette
Search for a command to run...
Giorgos Nikolaou Tommaso Mencattini Donato Crisostomi Andrea Santilli Yannis Panagakis Emanuele Rodola'
摘要
Transformer 模型中的非线性激活函数和归一化等组件本质上是非单射的,这意味着不同的输入可能映射到相同的输出,从而阻碍从模型的表征中精确恢复原始输入。本文对这一观点提出挑战。首先,我们从数学上证明,将离散输入序列映射为连续表征序列的 Transformer 语言模型是单射的,因此具有无损性,这一性质在模型初始化时即已确立,并在整个训练过程中得以保持。其次,我们通过在六种先进语言模型上进行数十亿次碰撞测试,实证验证了该结论,结果中未发现任何碰撞现象。第三,我们实现了单射性的可操作化:提出 SipIt,这是首个能够可证明地、高效地从隐藏层激活值中重建原始输入文本的算法,其具备线性时间复杂度的理论保证,并在实践中验证了模型的完全可逆性。综上所述,本工作将单射性确立为语言模型的一项基本且可利用的特性,对提升模型的可解释性、透明度以及安全部署具有直接而深远的影响。