Encodeurs de phrases en pile raccourcie pour l'inférence multi-domaine

Nous présentons un encodeur de phrases séquentiel simple pour l'inférence en langage naturel multi-domaine. Notre encodeur est basé sur des LSTM-RNN bidirectionnels empilés avec des connexions raccourcies et un affinage des plongements lexicaux (word embeddings). Le modèle supervisé global utilise cet encodeur pour transformer deux phrases d'entrée en deux vecteurs, puis utilise un classificateur sur la combinaison de ces vecteurs pour étiqueter la relation entre ces deux phrases comme étant une implication, une contradiction ou une relation neutre. Nos encodeurs de phrases à connexions raccourcies empilées obtiennent des améliorations significatives par rapport aux encodeurs existants sur l'inférence en langage naturel multi-domaine correspondante et non correspondante (meilleur résultat unique non combiné dans le défi partagé EMNLP RepEval 2017 (Nangia et al., 2017)). De plus, ils atteignent le nouveau niveau d'excellence en codage sur l'ensemble de données original SNLI (Bowman et al., 2015).