Verbesserung vortrainierter Modelle durch Textstrukturwissen für die Frageerzeugung

Heute erreichen vortrainierte Sprachmodelle bei der Frageerzeugung (Question Generation, QG) erheblichen Erfolg und überlegen deutlich traditionelle sequenz-zu-sequenz-Ansätze. Allerdings behandeln vortrainierte Modelle den Eingabepassus als flache Sequenz und sind somit nicht über die Textstruktur des Eingabepassus informiert. Für die QG-Aufgabe modellieren wir die Textstruktur als Antwortposition und syntaktische Abhängigkeit und schlagen zwei Ansätze vor, um diese Einschränkungen zu überwinden: die Modellierung der Antwortlokalisierung und die syntaktische Masken-Attention. Speziell stellen wir eine Lokalisierungsmodellierung mit einem Gauss’schen Bias vor, um das Modell darauf zu fokussieren, den Kontext um die Antwort herum zu berücksichtigen, und schlagen eine Masken-Attention-Mechanismus vor, der die syntaktische Struktur des Eingabepassus im Prozess der Frageerzeugung zugänglich macht. Experimente auf dem SQuAD-Datensatz zeigen, dass unsere beiden vorgeschlagenen Module die Leistung eines starken vortrainierten Modells, ProphetNet, verbessern, und ihre Kombination führt zu Ergebnissen, die mit dem aktuellen Stand der Technik konkurrieren.