2 个月前

半监督序列建模与跨视图训练

Kevin Clark; Minh-Thang Luong; Christopher D. Manning; Quoc V. Le

摘要

无监督表示学习算法（如word2vec和ELMo）通过利用大量未标注文本，提高了许多有监督NLP模型的准确性。然而，这些有监督模型在主要训练阶段仅从特定任务的标注数据中学习。因此，我们提出了一种半监督学习算法——跨视图训练（Cross-View Training, CVT），该算法通过结合标注数据和未标注数据来改进Bi-LSTM句子编码器的表示。对于标注样本，使用标准的有监督学习方法；而对于未标注样本，CVT教导辅助预测模块根据受限输入视图（例如，句子的一部分）来匹配全模型对整个输入的预测。由于辅助模块和全模型共享中间表示，这反过来也提升了全模型的表现。此外，我们还证明了当CVT与多任务学习结合时效果尤为显著。我们在五个序列标记任务、机器翻译和依存句法分析上评估了CVT，取得了当前最佳的结果。