Closed-Book Training zur Verbesserung des Summarization Encoder Memory

Ein gutes neuronales Sequenz-zu-Sequenz-Zusammenfassungsmodell sollte einen leistungsfähigen Encoder aufweisen, der in der Lage ist, wichtige Informationen aus langen Eingabetexten zu extrahieren und zu speichern, sodass der Decoder auf Grundlage des Gedächtnisses des Encoders prägnante Zusammenfassungen erzeugen kann. In dieser Arbeit streben wir an, die Speicherleistung des Encoders eines Pointer-Generator-Modells durch Hinzufügen eines zusätzlichen "closed-book"-Decoders ohne Aufmerksamkeits- und Pointervorgänge zu verbessern. Ein solcher Decoder zwingt den Encoder, selektiver in Bezug auf die in seinem Gedächtniszustand kodierten Informationen zu sein, da der Decoder sich nicht auf zusätzliche Informationen stützen kann, die von den Aufmerksamkeits- und möglicherweise Kopiermodulen bereitgestellt werden. Dies führt letztlich zu einer Verbesserung des gesamten Modells. Bei dem CNN/Daily Mail-Datensatz übertrifft unser 2-Decoder-Modell das Basismodell signifikant hinsichtlich der ROUGE- und METEOR-Metrik sowohl bei den Kreuzentropie- als auch bei den verstärkenden Szenarien (und bei menschlicher Bewertung). Darüber hinaus erreicht unser Modell auch höhere Werte in einem nur-testbasierten DUC-2002-Generalisierungsszenario. Wir stellen ferner einen Gedächtnistest, zwei Salienzmetriken sowie mehrere Plausibilitätstests (auf Basis von festem Encoder, Unterbrechung des Gradientenflusses und Modellkapazität) vor, um zu beweisen, dass der Encoder unseres 2-Decoder-Modells tatsächlich stärkere Gedächtnisrepräsentationen lernt als der Baseline-Encoder.