Ein effektives Kontext-Antwort-Matchingsmodell mit selbstüberwachten Aufgaben für retrivale-basierte Dialoge lernen

Das Bau einer intelligenten Dialogsysteme mit der Fähigkeit, eine angemessene Antwort basierend auf einem mehrfachen Kontext auszuwählen, ist eine außerordentlich herausfordernde Aufgabe. Bestehende Studien konzentrieren sich auf das Erstellen eines Kontext-Antwort-Übereinstimmungsmodells mit verschiedenen neuronalen Architekturen oder vortrainierten Sprachmodellen (PLMs) und lernen in der Regel durch eine einzelne Aufgabe zur Antwortvorhersage. Diese Ansätze übersehen jedoch viele potenzielle Trainingszeichen, die in Dialogdaten enthalten sind und die für das Verständnis des Kontexts nützlich sein könnten, um bessere Merkmale für die Antwortvorhersage zu erzeugen. Darüber hinaus stehen die Antworten, die aus bestehenden Dialogsystemen abgerufen werden, die durch herkömmliche Methoden überwacht werden, weiterhin vor einigen kritischen Herausforderungen, darunter Inkohärenz und Inkonsistenz. Um diese Probleme anzugehen, schlagen wir in diesem Papier vor, ein Kontext-Antwort-Übereinstimmungsmodell mit zusätzlichen selbstüberwachten Aufgaben zu lernen, die speziell für Dialogdaten auf Basis von vortrainierten Sprachmodellen entwickelt wurden. Insbesondere führen wir vier selbstüberwachte Aufgaben ein: Vorhersage der nächsten Sitzung (next session prediction), Wiederherstellung von Äußerungen (utterance restoration), Erkennung von Inkohärenz (incoherence detection) und Diskriminierung von Konsistenz (consistency discrimination). Wir trainieren das PLM-basierte Antwortauswahlmodell gemeinsam mit diesen zusätzlichen Aufgaben im Rahmen eines Multi-Task-Lernens. Dadurch können die zusätzlichen Aufgaben das Lernen des Übereinstimmungsmodells leiten, um einen besseren lokalen Optimum zu erreichen und eine angemessenere Antwort auszuwählen. Experimentelle Ergebnisse anhand zweier Benchmarks zeigen, dass die vorgeschlagenen zusätzlichen selbstüberwachten Aufgaben erhebliche Verbesserungen bei der Auswahl mehrfacher Antworten in abrufbasierten Dialogen bringen und unser Modell neue Stand-of-the-Art-Ergebnisse auf beiden Datensätzen erzielt.