Multiview Kontextuelle Alltagsinferenz: Ein neuer Datensatz und eine neue Aufgabe

Die kontextuelle Alltagsverstandsinferenz ist die Aufgabe, verschiedene Arten von Erklärungen zu den Ereignissen in einem dyadischen Dialog zu generieren, darunter Ursache, Motivation, emotionale Reaktion und andere. Die Erstellung einer kohärenten und nicht trivialen Erklärung erfordert ein Bewusstsein für die Struktur des Dialogs und dafür, wie ein Ereignis im Kontext verankert ist. In dieser Arbeit erstellen wir CICEROv2, einen Datensatz, der 8.351 Instanzen aus 2.379 Dialogen umfasst und mehrere menschlich verfasste Antworten für jede Frage zur kontextuellen Alltagsverstandsinferenz enthält. Diese Antworten repräsentieren Arten von Erklärungen bezüglich Ursache, nachfolgendem Ereignis, Motivation und emotionaler Reaktion. Wir zeigen, dass die Inferenzen in CICEROv2 semantisch vielfältiger sind als in anderen Datensätzen zur kontextuellen Alltagsverstandsinferenz. Um die Inferenzaufgabe zu lösen, schlagen wir eine Reihe von Vortrainingszielen vor, darunter Konzeptentrauschen (concept denoising) und Äußerungssortierung (utterance sorting), um ein vortrainiertes Modell für die nachgelagerte kontextuelle Alltagsverstandsinferenz aufzubereiten. Unsere Ergebnisse belegen, dass die vorgeschlagenen Vortrainingsziele effektiv sind, um das vortrainierte T5-Large-Modell für die kontextuelle Alltagsverstandsinferenz aufzubereiten.