HyperAIHyperAI
vor 16 Tagen

Hierarchisches Lernen zur Generierung mit langen Quellsequenzen

Tobias Rohde, Xiaoxia Wu, Yinhan Liu
Hierarchisches Lernen zur Generierung mit langen Quellsequenzen
Abstract

Ein zentrales Problem aktueller Sequence-to-Sequence-(Seq2Seq)-Modelle besteht darin, lange Sequenzen – beispielsweise in Aufgaben der Zusammenfassung oder der dokumentenweiten maschinellen Übersetzung – effizient zu verarbeiten. Diese Aufgaben erfordern vom Modell die Fähigkeit, auf Token-, Satz- und Absatzebene zu reasoning. Wir entwickeln und untersuchen eine neue hierarchische Aufmerksamkeits-Transformers-basierte Architektur (HAT), die auf mehreren Seq2Seq-Aufgaben die Standard-Transformer übertrifft. Zudem erzielt unser Modell state-of-the-art ROUGE-Scores auf vier Zusammenfassungsaufgaben, darunter PubMed, arXiv, CNN/DM, SAMSum und AMI. Auf der WMT20-Aufgabe zur Übersetzung von Englisch nach Deutsch erreicht unser Modell eine bessere Leistung als die Baseline für dokumentenweite maschinelle Übersetzung. Wir untersuchen, was die hierarchischen Schichten lernen, indem wir die hierarchische Encoder-Decoder-Aufmerksamkeit visualisieren. Schließlich untersuchen wir das hierarchische Lernen bei encoder-only-Vortrainings und analysieren dessen Leistung auf Klassifizierungsaufgaben.