HyperAIHyperAI

Command Palette

Search for a command to run...

RealFormer: Transformer-Like Residual Attention

Ruining He Anirudh Ravula Bhargav Kanagal Joshua Ainslie

Zusammenfassung

Der Transformer ist die Grundlage moderner NLP-Modelle. In diesem Paper stellen wir RealFormer vor, eine einfache und generische Technik zur Konstruktion von Residual Attention Layer Transformer-Netzwerken, die auf einer breiten Palette von Aufgaben erheblich besser abschneiden als der klassische Transformer und seine Varianten (wie BERT usw.). Dazu zählen Masked Language Modeling, GLUE, SQuAD, Neural Machine Translation, WikiHop, HotpotQA, Natural Questions und OpenKP. Zudem beobachten wir empirisch, dass RealFormer das Training stabilisiert und Modelle mit spärserer Aufmerksamkeit hervorbringt. Der Quellcode und vortrainierte Checkpoints für RealFormer sind unter https://github.com/google-research/google-research/tree/master/realformer verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
RealFormer: Transformer-Like Residual Attention | Paper | HyperAI