
摘要
当前最先进的自然语言处理(NLP)系统严重依赖于人工标注的数据集,而这些数据集的构建成本高昂。很少有研究充分挖掘未标注数据的价值——例如句子之间的衔接标记——这主要是由于数据稀疏性和提取方法效率低下所致。在本研究中,我们提出了一种自动发现具有相关衔接标记的句子对的方法,并将其应用于大量数据。最终生成的数据集包含174个衔接标记,每个标记至少有1万个示例,即使是较为罕见的标记如“巧合地”(coincidentally)或“令人惊讶地”(amazingly)。我们利用该数据集作为监督信号来学习可迁移的句子嵌入表示。此外,尽管通过预测衔接标记进行句子表示学习在不同的迁移任务中取得了最先进水平的结果,但尚不清楚我们的模型是否真正利用了句子之间的语义关系,因此仍有进一步改进的空间。我们的数据集已公开发布(https://github.com/synapse-developpement/Discovery)。