HyperAIHyperAI

Command Palette

Search for a command to run...

N-Grammer: Erweiterung von Transformers durch latente N-Gramme

Zusammenfassung

Transformer-Modelle sind in letzter Zeit zu einem der grundlegenden Architekturen im Bereich des natürlichen Sprachverstehens geworden, wodurch sich gleichzeitig ein erhebliches Interesse und eine starke Investition in die Skalierung dieser Modelle ergeben hat. Allerdings sind die Trainings- und Inferenzkosten dieser großen Transformer-Sprachmodelle prohibitiv, was eine verstärkte Forschung zur Entwicklung effizienterer Varianten erforderlich macht. In dieser Arbeit schlagen wir eine einfache, jedoch wirksame Modifikation der Transformer-Architektur vor, die sich an der Literatur zum statistischen Sprachmodellieren orientiert. Dabei ergänzen wir das Modell um n-Gramme, die aus einer diskreten latenten Darstellung der Textsequenz abgeleitet werden. Wir evaluieren unser Modell, das N-Grammer, im Bereich der Sprachmodellierung auf dem C4-Datensatz sowie im Bereich der Textklassifikation auf dem SuperGLUE-Datensatz und stellen fest, dass es mehrere starke Baselines, wie beispielsweise den Transformer und das Primer-Modell, übertrifft. Für Zwecke der Reproduzierbarkeit stellen wir unser Modell in Jax öffentlich zur Verfügung.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp