Vorabtrainieren des Rauschkanalmodells für taskorientierte Dialoge

Direkte Decodierung für task-orientierte Dialoge ist bekannt dafür, unter dem Erklärungseffekt (explaining-away effect) zu leiden, der sich in Modellen manifestiert, die kurze und generische Antworten bevorzugen. In diesem Beitrag plädieren wir für die Verwendung des Satzes von Bayes, um die Dialogaufgabe in zwei Modelle zu faktorisieren: die Verteilung des Kontexts gegeben die Antwort und das A-priori-Modell für die Antwort selbst. Dieser Ansatz, eine Instanziierung des Rauschkanaelmodells (noisy channel model), mildert den Erklärungseffekt und ermöglicht es zudem, große vortrainierte Modelle für das A-priori der Antwort präzise einzubeziehen. Wir präsentieren umfangreiche Experimente, die zeigen, dass ein Rauschkanaelmodell bessere Antworten decodiert als direkte Decodierung und dass eine zweistufige Vortrainierungsstrategie, die sowohl offene als auch task-orientierte Dialogdaten verwendet, zufällig initialisierte Modelle übertrifft.