9 天前

Watchog:一种基于轻量级对比学习的列注释框架

{Jin Wang, Zhengjie Miao}
摘要

关系型网页表格为众多下游应用提供了宝贵资源,因此表格理解——尤其是列标注任务(即识别列的语义类型与关系)——已成为数据管理领域的研究热点。尽管近年来已有研究尝试借助大规模预训练语言模型的力量来提升表格理解的各项任务性能,但现有方法仍严重依赖大规模且高质量的标注数据,且由于各类别间数据分布不均衡,仍面临数据稀疏性问题。本文提出了一种名为 Watchog 的新框架,该框架采用对比学习技术,通过利用大规模未标注表格语料库,在极低计算开销下学习鲁棒的表格表示。该方法使学习到的表格表示能够在下游列标注任务中实现更高效的微调,所需额外标注样本数量远少于以往研究。此外,我们还进一步提出了适用于半监督学习场景的优化技术。在多个主流基准数据集上的实验结果表明,所提出的各项技术在不同设置下均显著优于现有方法。特别地,Watchog 框架有效缓解了由长尾标签分布引发的类别不平衡问题。在半监督设置下,Watchog 在语义类型检测任务中,相较于当前最优方法,Micro F1 和 Macro F1 分别提升了高达 26% 和 41%。

Watchog:一种基于轻量级对比学习的列注释框架 | 最新论文 | HyperAI超神经