HyperAIHyperAI
vor 17 Tagen

RealFormer: Transformer-Like Residual Attention

Ruining He, Anirudh Ravula, Bhargav Kanagal, Joshua Ainslie
RealFormer: Transformer-Like Residual Attention
Abstract

Der Transformer ist die Grundlage moderner NLP-Modelle. In diesem Paper stellen wir RealFormer vor, eine einfache und generische Technik zur Konstruktion von Residual Attention Layer Transformer-Netzwerken, die auf einer breiten Palette von Aufgaben erheblich besser abschneiden als der klassische Transformer und seine Varianten (wie BERT usw.). Dazu zählen Masked Language Modeling, GLUE, SQuAD, Neural Machine Translation, WikiHop, HotpotQA, Natural Questions und OpenKP. Zudem beobachten wir empirisch, dass RealFormer das Training stabilisiert und Modelle mit spärserer Aufmerksamkeit hervorbringt. Der Quellcode und vortrainierte Checkpoints für RealFormer sind unter https://github.com/google-research/google-research/tree/master/realformer verfügbar.

RealFormer: Transformer-Like Residual Attention | Neueste Forschungsarbeiten | HyperAI