17 天前

衡量组合泛化:一种基于真实数据的综合方法

Daniel Keysers, Nathanael Schärli, Nathan Scales, Hylke Buisman, Daniel Furrer, Sergii Kashubin, Nikola Momchev, Danila Sinopalnikov, Lukasz Stafiniak, Tibor Tihon, Dmitry Tsarkov, Xiao Wang, Marc van Zee, Olivier Bousquet
衡量组合泛化:一种基于真实数据的综合方法
摘要

当前最先进的机器学习方法在组合泛化(compositional generalization)方面表现出显著局限性。与此同时,缺乏能够全面衡量这一能力的现实基准数据集,这使得发现并评估相关改进变得极为困难。为此,我们提出一种新颖的方法,通过在保证训练集与测试集之间原子成分差异(atom divergence)较小的前提下,最大化复合成分差异(compound divergence),从而系统性地构建此类基准。我们对该方法与其他构建组合泛化基准的现有方法进行了定量比较。基于该方法,我们构建了一个大规模且具有现实意义的自然语言问答数据集,并利用该数据集分析了三种机器学习架构的组合泛化能力。研究发现,这些模型均无法实现有效的组合泛化,且复合成分差异与模型准确率之间呈现出令人惊讶的强烈负相关关系。此外,我们还展示了如何将该方法应用于现有SCAN数据集之上,构建新的组合性基准,进一步验证了上述结论。