HyperAIHyperAI
vor 2 Monaten

HIBERT: Dokumentenlevel-Vortraining von hierarchischen bidirektionalen Transformatoren für die Dokumentenzusammenfassung

Xingxing Zhang; Furu Wei; Ming Zhou
HIBERT: Dokumentenlevel-Vortraining von hierarchischen bidirektionalen Transformatoren für die Dokumentenzusammenfassung
Abstract

Neuronale extraktive Zusammenfassungsmodelle verwenden in der Regel eine hierarchische Encoder-Architektur für die Dokumentencodierung und werden mit satzbasierenden Labels trainiert, die heuristisch mithilfe regelbasierter Methoden erstellt werden. Die Ausbildung des hierarchischen Encoders mit diesen \emph{ungenauen} Labels stellt eine Herausforderung dar. Inspiriert von jüngsten Arbeiten zur Vortrainierung von Transformer-Satzencodern \cite{devlin:2018:arxiv}, schlagen wir {\sc Hibert} (als Abkürzung für {\bf HI}erarchische {\bf B}idirektionale {\bf E}ncoder-{\bf R}epresentationen aus {\bf T}ransformern) für die Dokumentencodierung vor sowie eine Methode, um es unter Verwendung unmarkierter Daten zu vortrainieren. Wir wenden das vortrainierte {\sc Hibert} auf unser Zusammenfassungsmodell an und es übertrifft sein zufällig initialisiertes Pendant um 1,25 ROUGE auf dem CNN/Dailymail-Datensatz und um 2,0 ROUGE auf einer Version des New York Times-Datensatzes. Auch erreichen wir den aktuellen Stand der Technik auf diesen beiden Datensätzen.

HIBERT: Dokumentenlevel-Vortraining von hierarchischen bidirektionalen Transformatoren für die Dokumentenzusammenfassung | Neueste Forschungsarbeiten | HyperAI