HyperAIHyperAI
vor 11 Tagen

SummaReranker: Ein Multi-Task-Mixture-of-Experts-Umordnungs-Framework für abstraktive Zusammenfassungen

Mathieu Ravaut, Shafiq Joty, Nancy F. Chen
SummaReranker: Ein Multi-Task-Mixture-of-Experts-Umordnungs-Framework für abstraktive Zusammenfassungen
Abstract

Sequenz-zu-Sequenz-Neuronale Netzwerke haben in jüngster Zeit erheblichen Erfolg bei der abstraktiven Zusammenfassung erzielt, insbesondere durch das Feintuning großer vortrainierter Sprachmodelle auf datenspezifischen Downstream-Datensätzen. Diese Modelle werden typischerweise mittels Beam-Search decodiert, um eine eindeutige Zusammenfassung zu generieren. Allerdings ist der Suchraum sehr groß, und aufgrund der Expositions-Bias-Problemstellung ist diese Decodierung nicht optimal. In diesem Paper zeigen wir, dass es möglich ist, ein zweistufiges Modell direkt zu trainieren, das eine Neubewertung (Re-Ranking) einer Menge von Zusammenfassungskandidaten durchführt. Unser Mixture-of-Experts-Modell SummaReranker lernt, einen besseren Kandidaten auszuwählen und verbessert konsistent die Leistung des Basismodells. Bei Verwendung eines Basis-PEGASUS-Modells steigern wir die ROUGE-Scores um 5,44 % auf CNN-DailyMail (47,16 ROUGE-1), um 1,31 % auf XSum (48,12 ROUGE-1) und um 9,34 % auf Reddit TIFU (29,83 ROUGE-1), wodurch ein neuer State-of-the-Art erreicht wird. Unser Code und die Modell-Checkpoints werden unter https://github.com/ntunlp/SummaReranker verfügbar sein.

SummaReranker: Ein Multi-Task-Mixture-of-Experts-Umordnungs-Framework für abstraktive Zusammenfassungen | Neueste Forschungsarbeiten | HyperAI