HyperAI超神经

TabSTAR:具有语义目标感知表示的基础表格模型

Alan Arazi, Eilam Shapira, Roi Reichart
发布日期: 5/26/2025
TabSTAR:具有语义目标感知表示的基础表格模型
摘要

尽管深度学习在许多领域取得了显著的成功,但在表格学习任务上,其表现历来不佳,这些任务仍主要由梯度提升决策树(GBDTs)主导。然而,最近的进展为表格基础模型(Tabular Foundation Models)的发展铺平了道路,这些模型能够利用现实世界知识,并在多样化的数据集上进行泛化,特别是在数据包含自由文本时。虽然已有一些研究探索了将语言模型能力融入表格任务中,但大多数现有方法使用的是静态的、与目标无关的文本表示,这限制了它们的有效性。我们介绍了TabSTAR:一种具有语义目标感知表示的基础表格模型。TabSTAR旨在实现带有文本特征的表格数据上的迁移学习,并且其架构不包含特定于数据集的参数。它解冻了一个预训练的文本编码器,并以目标标记作为输入,为模型提供所需上下文以学习特定于任务的嵌入表示。TabSTAR在已知基准测试中对包含文本特征的分类任务中的中型和大型数据集均达到了最先进的性能,并且其预训练阶段展示了数据集数量上的扩展规律,为未来性能的进一步提升提供了途径。