Die Verbesserung der maschinellen Leseverständnis durch allgemeine Lesestrategien

Lesestrategien haben sich als wirksam erwiesen, um das Verständnis zu verbessern, insbesondere für Leser, die über unzureichendes vorheriges Wissen verfügen. Ebenso wie der Prozess der Wissensakkumulation für menschliche Leser zeitaufwendig ist, erfordert es bei tiefen Sprachmodellen eine hohe Ressourcenbelastung, um reichhaltiges allgemeines Domänenwissen durch Vorabtraining zu vermitteln. Inspiriert von Lesestrategien, die in der Kognitionsforschung identifiziert wurden, und unter Berücksichtigung begrenzter Rechenressourcen – nur ein vortrainiertes Modell und eine feste Anzahl von Trainingsinstanzen – schlagen wir drei generelle Strategien vor, die darauf abzielen, das nicht-extraktive maschinelle Verständnis von Texten (MRC) zu verbessern: (i) VOR-UND-RÜCKWÄRTSLESEN, das sowohl die ursprüngliche als auch die umgekehrte Reihenfolge einer Eingabe-Sequenz berücksichtigt, (ii) Hervorhebung (Highlighting), die einem trainierbaren Einbettungsvektor für Tokens hinzufügt, die relevant für Frage und mögliche Antworten sind, und (iii) SELBSTBESCHEIDUNG (Self-Assessment), die Übungsfragen und mögliche Antworten direkt aus dem Text in einem unüberwachten Verfahren generiert.Durch Feinabstimmung eines vortrainierten Sprachmodells (Radford et al., 2018) mit unseren vorgeschlagenen Strategien auf dem größten allgemeinen Domänen-Datensatz für Multiple-Choice-MRC RACE erreichen wir eine absolute Genauigkeitssteigerung von 5,8 % im Vergleich zum besten bisherigen Ergebnis dieses vortrainierten Modells ohne den Einsatz von Strategien. Wir führen eine weitere Feinabstimmung des resultierenden Modells auf einer Ziel-MRC-Aufgabe durch, was zu einer durchschnittlichen absoluten Genauigkeitssteigerung von 6,2 % über sechs repräsentative nicht-extraktive MRC-Datensätze aus verschiedenen Bereichen führt (d.h., ARC, OpenBookQA, MCTest, SemEval-2018 Task 11, ROCStories und MultiRC). Diese Ergebnisse belegen die Effektivität unserer vorgeschlagenen Strategien sowie die Vielseitigkeit und allgemeine Anwendbarkeit unserer feinabgestimmten Modelle, die diese Strategien integrieren. Der Kerncode ist unter https://github.com/nlpdata/strategy/ verfügbar.