11 天前

使用预训练语言模型生成数据集

Timo Schick, Hinrich Schütze
使用预训练语言模型生成数据集
摘要

为了从预训练语言模型(PLMs)中获取高质量的句子嵌入,通常需要在模型上增加额外的预训练目标,或在大规模标注文本对数据集上进行微调。尽管后一种方法通常表现更优,但其缺点是需要投入大量人力来构建足够规模且合适的标注数据集。本文提出了一种无需标注数据、无需微调或修改预训练目标即可获得高质量句子嵌入的新方法:我们利用高性能大模型的生成能力,从零开始自动生成完整的标注文本对数据集,进而用于微调更小、更高效的模型。该完全无监督的方法在多个语义文本相似性数据集上均优于现有的强基线模型。