
摘要
最近对领域特定的BERT模型的研究表明,当这些模型在领域内数据上进行预训练时,其在下游任务上的效果可以得到提升。通常,用于这些模型预训练的数据是根据其主题内容选择的,例如生物学或计算机科学。鉴于社交媒体文本应用广泛且语言具有独特多样性,我们分别在推特和论坛文本上预训练了两个模型,并通过实证研究展示了这两种资源的有效性。此外,我们还探讨了如何利用相似度度量来提名领域内预训练数据。我们的预训练模型已公开发布,地址为https://bit.ly/35RpTf0。
最近对领域特定的BERT模型的研究表明,当这些模型在领域内数据上进行预训练时,其在下游任务上的效果可以得到提升。通常,用于这些模型预训练的数据是根据其主题内容选择的,例如生物学或计算机科学。鉴于社交媒体文本应用广泛且语言具有独特多样性,我们分别在推特和论坛文本上预训练了两个模型,并通过实证研究展示了这两种资源的有效性。此外,我们还探讨了如何利用相似度度量来提名领域内预训练数据。我们的预训练模型已公开发布,地址为https://bit.ly/35RpTf0。