2 个月前

多编码器：用于快速准确的多句子评分的Transformer架构和预训练策略

Samuel Humeau; Kurt Shuster; Marie-Anne Lachaux; Jason Weston

摘要

深度预训练双向变压器在多个应用中取得了显著进展（Devlin等人，2018年）。对于需要对序列进行成对比较的任务，即将给定输入与相应的标签匹配，通常采用两种方法：一种是跨编码器（Cross-encoders），它对成对序列执行完整的自注意力机制；另一种是双编码器（Bi-encoders），它分别对每个序列进行编码。前者通常表现更好，但速度过慢，难以实际应用。在这项工作中，我们开发了一种新的变压器架构——Poly-encoder，该架构学习全局而非令牌级别的自注意力特征。我们对这三种方法进行了详细的对比分析，包括哪些预训练和微调策略最为有效。我们展示了我们的模型在三个现有任务上达到了最先进的结果；Poly-encoder比跨编码器更快，且比双编码器更准确；并且通过在类似于下游任务的大数据集上进行预训练可以获得最佳结果。