
摘要
在端到端系统中学习构建文本表示是一项具有挑战性的任务,因为自然语言具有高度的组合性和特定任务注释数据集通常规模有限。直接监督语言组合的方法可以使我们根据现有知识指导模型,使其向更加稳健和可解释的表示形式靠拢。本文研究了不同粒度的目标如何用于学习更好的语言表示,并提出了一种联合学习句子和标记(token)标签的架构。通过注意力机制将各层次的预测结果结合起来,同时利用标记级标签作为显式监督来构建句子级表示。实验结果表明,通过在多个层次上联合学习执行这些任务,模型在句子分类和序列标注方面均取得了显著的改进。