Command Palette
Search for a command to run...
HTLM:语言模型的超文本预训练与提示
HTLM:语言模型的超文本预训练与提示
Armen Aghajanyan Dmytro Okhonko Mike Lewis Mandar Joshi Hu Xu Gargi Ghosh Luke Zettlemoyer
摘要
我们提出 HTLM,一种在大规模网络爬取数据上训练的超文本语言模型。对超文本进行建模具有多项优势:(1)可大规模高效获取;(2)提供了丰富的文档级监督信息以及与下游任务紧密相关的标注信号(例如,class 和 id 属性通常编码了文档类别信息);(3)支持基于 HTML 语义结构的新型结构化提示方式(例如,通过填充包含输入文本的网页的 title 标签,实现零样本摘要生成)。我们证明,在简化版 HTML 上直接采用类似 BART 的去噪损失进行预训练,能够为多种下游任务和不同监督水平提供高效的迁移能力。在零样本提示和微调任务中,HTLM 在分类基准测试上的表现与同等规模的纯文本语言模型相当或更优,同时在零样本摘要任务中达到了新的最先进水平。此外,我们发现,相较于现有语言模型所使用的纯文本提示,超文本提示在数据效率方面为 HTLM 提供了更大价值;且 HTLM 能够高效地实现自我提示,仅需对可用训练数据生成最可能的超文本格式即可。我们将开源全部代码与模型,以支持未来在 HTLM 方向上的研究工作。