RealFormer: Transformer-Like Residual Attention

Der Transformer ist die Grundlage moderner NLP-Modelle. In diesem Paper stellen wir RealFormer vor, eine einfache und generische Technik zur Konstruktion von Residual Attention Layer Transformer-Netzwerken, die auf einer breiten Palette von Aufgaben erheblich besser abschneiden als der klassische Transformer und seine Varianten (wie BERT usw.). Dazu zählen Masked Language Modeling, GLUE, SQuAD, Neural Machine Translation, WikiHop, HotpotQA, Natural Questions und OpenKP. Zudem beobachten wir empirisch, dass RealFormer das Training stabilisiert und Modelle mit spärserer Aufmerksamkeit hervorbringt. Der Quellcode und vortrainierte Checkpoints für RealFormer sind unter https://github.com/google-research/google-research/tree/master/realformer verfügbar.