
摘要
列类型注释是指对关系表中的各列进行标注,以反映每列所包含值的语义类型。在数据湖环境中,列类型注释是数据搜索和数据集成的重要预处理步骤。目前最先进的列类型注释方法要么依赖于将表格列与知识图谱的属性进行匹配,要么通过微调预训练语言模型(如BERT)来进行列类型注释。在本研究中,我们采取了一种不同的方法,探索使用ChatGPT进行列类型注释。我们在零样本和少样本设置下评估了不同的提示设计,并尝试向模型提供任务定义和详细指令。此外,我们实现了一个两步表格注释管道,首先确定表格中描述的实体类别,然后根据该类别要求ChatGPT仅使用整体词汇的相关子集来标注列。通过使用指令以及两步管道,ChatGPT在零样本和单样本设置下的F1分数超过了85%。为了达到类似的F1分数,RoBERTa模型需要使用356个示例进行微调。这一对比表明,在没有或仅有少量任务特定示例的情况下,ChatGPT能够为列类型注释任务提供具有竞争力的结果。