Dial-MAE: ConTextueller Maskierter Auto-Encoder für Retrieval-basierte Dialogsysteme

Die Auswahl von Dialogantworten zielt darauf ab, aus mehreren Kandidaten eine angemessene Antwort basierend auf der Gesprächs- und Systemverlaufsgeschichte eines Benutzers auszuwählen. Die meisten existierenden Arbeiten konzentrieren sich hauptsächlich auf Post-Training und Feinabstimmung, die für Cross-Encoders angepasst sind. Es gibt jedoch keine Post-Training-Methoden, die speziell für dichte Encoder in der Dialogantwortenauswahl entwickelt wurden. Wir argumentieren, dass wenn das aktuelle Sprachmodell, das auf dichten Dialogsystemen (wie BERT) basiert, als dichter Encoder eingesetzt wird, es den Dialogkontext und die Antwort getrennt kodiert, was dazu führt, dass die Anpassung beider Repräsentationen schwierig wird. Daher schlagen wir Dial-MAE (Dialog-Kontext-Masking-Auto-Encoder) vor, eine einfache aber effektive Post-Training-Technik, die speziell für dichte Encoder in der Dialogantwortenauswahl entwickelt wurde. Dial-MAE verwendet eine asymmetrische Enkoder-Dekoder-Architektur, um die Semantik des Dialogs in dichte Vektoren zu komprimieren, wodurch eine bessere Anpassung zwischen den Merkmalen des Dialogkontexts und der Antwort erreicht wird. Unsere Experimente haben gezeigt, dass Dial-MAE hoch effektiv ist und den Stand der Technik auf zwei häufig evaluierten Benchmarks erzielt.