2 个月前
学习概率对称化以实现架构无关的等变性
Jinwoo Kim; Tien Dat Nguyen; Ayhan Suleymanzade; Hyeokjun An; Seunghoon Hong

摘要
我们提出了一种新颖的框架,旨在克服等变架构在学习具有群对称性的函数时的局限性。与等变架构不同,我们使用任意基础模型(如多层感知机或多头变换器),并通过引入一个小的等变网络来参数化对称化过程背后的概率分布,从而将其对称化为给定的群。该分布与基础模型一起进行端到端训练,可以在提高性能的同时降低对称化的样本复杂度。我们证明了这种方法不仅确保了对给定群的等变性,还具备期望下的通用逼近能力。我们在各种基础模型上实现了该方法,包括可以从预训练视觉变换器初始化的基于补丁的变换器,并对其进行了广泛的对称群测试,包括置换群、欧几里得群及其组合。实验证明,我们的方法在针对这些特定等变架构的竞争中表现出色,表明使用非等变通用基础架构可以有效地学习多样化的群等变函数。此外,我们还展示了从非对称模态(如视觉)预训练后,在对称模态(如图)上的学习效果得到了增强。代码可在 https://github.com/jw9730/lps 获取。