11 天前
用于非参数两样本检验的深度核函数学习
Feng Liu, Wenkai Xu, Jie Lu, Guangquan Zhang, Arthur Gretton, Danica J. Sutherland

摘要
我们提出一类基于核函数的两样本检验方法,旨在判断两组样本是否来自同一分布。我们的检验方法采用由深度神经网络参数化的核函数,并通过训练以最大化检验功效。这类核函数能够自适应地捕捉分布平滑性与形状在空间上的变化,特别适用于高维数据和复杂结构的数据。相比之下,以往核检验方法所使用的核函数在空间上是均匀的,仅能在尺度参数(lengthscale)上进行适应。我们阐明了该方法可将流行的基于分类器的两样本检验作为特例包含在内,且在一般情况下具有更优性能。本文首次提供了所提出的自适应方法的一致性证明,该证明同时适用于深度特征核函数、简单的径向基核函数(radial basis kernels)以及多核学习(multiple kernel learning)的情形。在实验中,我们在基准数据集和真实世界数据上均验证了所提出的深度核函数在假设检验任务中的优越性能。基于深度核的两样本检验代码已开源,详见:https://github.com/fengliu90/DK-for-TST。