Une Comparaison Qualitative de CoQA, SQuAD 2.0 et QuAC

Nous comparons trois nouveaux ensembles de données pour le traitement des questions-réponses : SQuAD 2.0, QuAC et CoQA, en mettant l'accent sur plusieurs de leurs nouvelles caractéristiques : (1) les questions non répondues, (2) les interactions multirounds, et (3) les réponses abstraitives. Nous montrons que ces ensembles de données offrent une couverture complémentaire des deux premiers aspects, mais une couverture faible du troisième. En raison de leur similarité structurelle, un modèle unique d'extraction peut être facilement adapté à l'un quelconque de ces ensembles de données, et nous démontrons des améliorations des résultats de base sur SQuAD 2.0 et CoQA. Malgré cette similarité, les modèles formés sur un ensemble de données sont inefficaces sur un autre ensemble de données ; cependant, nous constatons une amélioration modérée des performances grâce au pré-entraînement. Pour encourager l'évaluation croisée, nous mettons à disposition du code permettant la conversion entre les ensembles de données à l'adresse https://github.com/my89/co-squac .