Modellierung von Mehrfachkonversationen durch tiefe Äußerungsaggregation

Das Verständnis von Multi-Turn-Gesprächen stellt eine große Herausforderung für die Entwicklung intelligenter Dialogsysteme dar. Diese Arbeit konzentriert sich auf die ergebnisbasierte Antwortzuteilung für Multi-Turn-Gespräche, bei der bisherige Arbeiten einfach die Gesprächseinheiten zusammenfügen und dabei die Wechselwirkungen zwischen früheren Einheiten für die Kontextmodellierung außer Acht lassen. In dieser Publikation formulieren wir frühere Einheiten in den Kontext mithilfe eines vorgeschlagenen tiefen Einheit-Aggregationsmodells, um eine feingranulare Kontextrepräsentation zu bilden. Im Detail wird zunächst eine Selbst-Matching-Aufmerksamkeit eingeführt, um die wesentlichen Informationen in jeder Einheit zu selektieren. Anschließend passt das Modell eine Antwort mit jeder verfeinerten Einheit an, und der endgültige Übereinstimmungswert wird nach einer aufmerksamen Turn-Aggregation erreicht. Die experimentellen Ergebnisse zeigen, dass unser Modell auf drei Multi-Turn-Gesprächsbenchmarks, einschließlich einem neu eingeführten e-Commerce-Dialogkorpus, den Stand der Technik übertrifft.