Dial-MAE : ConTextuel Masked Auto-Encoder pour les Systèmes de Dialogue Basés sur la Récupération

La sélection de réponse dans un dialogue vise à choisir une réponse appropriée parmi plusieurs candidats en se basant sur l'historique des énoncés de l'utilisateur et du système. La plupart des travaux existants se concentrent principalement sur le post-entraînement et le réglage fin (fine-tuning) spécifiquement adaptés aux encodeurs croisés (cross-encoders). Cependant, il n'existe aucune méthode de post-entraînement spécialement conçue pour les encodeurs denses dans la sélection de réponse de dialogue. Nous soutenons que lorsque le modèle linguistique actuel, basé sur des systèmes de dialogue denses (comme BERT), est utilisé comme encodeur dense, il code séparément le contexte du dialogue et la réponse, ce qui entraîne des difficultés pour aligner ces deux représentations. Ainsi, nous proposons Dial-MAE (Dialogue Contextual Masking Auto-Encoder), une technique de post-entraînement simple mais efficace spécifiquement adaptée aux encodeurs denses dans la sélection de réponse de dialogue. Dial-MAE utilise une architecture asymétrique encodeur-décodeur pour compresser les sémantiques du dialogue en vecteurs denses, ce qui permet une meilleure alignement entre les caractéristiques du contexte du dialogue et celles de la réponse. Nos expériences ont démontré que Dial-MAE est très efficace, atteignant des performances de pointe sur deux benchmarks couramment utilisés pour l'évaluation.