16 天前

SubTab:面向自监督表示学习的表格数据特征子集选择

Talip Ucar, Ehsan Hajiramezanali, Lindsay Edwards
SubTab:面向自监督表示学习的表格数据特征子集选择
摘要

自监督学习已被证明在学习有用表征方面极为有效,然而其大部分成功案例集中于图像、音频和文本等数据类型。这些成果主要得益于利用数据中的空间、时间或语义结构,并通过数据增强手段加以实现。然而,在医疗健康等领域常见的表格型数据中,此类结构往往并不存在,导致难以设计有效的数据增强方法,从而阻碍了自监督学习在表格数据场景下的类似进展。本文提出一种新框架——表格数据特征子集化(Subsetting features of Tabular data, SubTab),通过将输入特征划分为多个子集,将表格数据的学习任务转化为多视图表征学习问题。我们主张,在自编码器设定下,从特征子集而非被破坏的版本中重构数据,能够更有效地捕捉数据的潜在内在表征。在该框架中,测试阶段的联合表征可表示为各子集潜在变量的聚合,我们称之为协同推理(collaborative inference)。实验结果表明,SubTab在表格形式的MNIST数据集上达到了98.31%的SOTA(当前最优)性能,与基于卷积神经网络(CNN)的SOTA模型相当;同时,在另外三个真实世界数据集上,其表现显著优于现有基线方法。

SubTab:面向自监督表示学习的表格数据特征子集选择 | 最新论文 | HyperAI超神经