vor 9 Tagen

Verbesserung vortrainierter Modelle durch Textstrukturwissen für die Frageerzeugung

Zichen Wu, Xin Jia, Fanyi Qu, Yunfang Wu

Abstract

Heute erreichen vortrainierte Sprachmodelle bei der Frageerzeugung (Question Generation, QG) erheblichen Erfolg und überlegen deutlich traditionelle sequenz-zu-sequenz-Ansätze. Allerdings behandeln vortrainierte Modelle den Eingabepassus als flache Sequenz und sind somit nicht über die Textstruktur des Eingabepassus informiert. Für die QG-Aufgabe modellieren wir die Textstruktur als Antwortposition und syntaktische Abhängigkeit und schlagen zwei Ansätze vor, um diese Einschränkungen zu überwinden: die Modellierung der Antwortlokalisierung und die syntaktische Masken-Attention. Speziell stellen wir eine Lokalisierungsmodellierung mit einem Gauss’schen Bias vor, um das Modell darauf zu fokussieren, den Kontext um die Antwort herum zu berücksichtigen, und schlagen eine Masken-Attention-Mechanismus vor, der die syntaktische Struktur des Eingabepassus im Prozess der Frageerzeugung zugänglich macht. Experimente auf dem SQuAD-Datensatz zeigen, dass unsere beiden vorgeschlagenen Module die Leistung eines starken vortrainierten Modells, ProphetNet, verbessern, und ihre Kombination führt zu Ergebnissen, die mit dem aktuellen Stand der Technik konkurrieren.