2 个月前

通过大规模多任务学习获取通用分布式句表示

Sandeep Subramanian; Adam Trischler; Yoshua Bengio; Christopher J Pal
通过大规模多任务学习获取通用分布式句表示
摘要

近年来,自然语言处理(NLP)领域的许多进展都得益于在大量文本上以无监督方式训练的词的分布式向量表示。这些表示通常被用作解决各种NLP问题时的通用词特征。然而,将这一成功扩展到学习词序列(如句子)的表示仍然是一个未解决的问题。近期的研究探索了不同的训练目标下的无监督和有监督学习技术,以学习通用的固定长度句子表示。在这项工作中,我们提出了一种简单而有效的多任务学习框架,用于句子表示,该框架在一个模型中结合了多种训练目标的归纳偏置。我们在超过1亿个句子的数据源上,使用多个训练目标对模型进行了训练。广泛的实验表明,在弱相关任务之间共享单一循环句编码器可以持续改进先前的方法。我们展示了在迁移学习和低资源设置下使用所学的通用表示所带来的显著改进。