HyperAIHyperAI

Command Palette

Search for a command to run...

Speicher-effiziente stochastische Methoden für speicherbasierte Transformer

Vishwajit Kumar Vishnu; C. Chandra Sekhar

Zusammenfassung

Das Training von speicherbasierten Transformer-Modellen kann einen großen Speicherverbrauch erfordern und ist oft sehr ineffizient. Wir schlagen ein neues zweiphasiges Trainingsverfahren sowie eine neue Regularisierungstechnik vor, um die Trainings-effizienz von speicherbasierten Transformers zu verbessern, die häufig für Probleme mit langreichweitigem Kontext verwendet werden. Für unsere Experimente verwenden wir den Transformer-XL als Basismodell, das zu den speicherbasierten Transformer-Modellen gehört. Wir zeigen, dass unser resultierendes Modell, der Skip Cross-head TransformerXL, im charakterbasierten Sprachmodellierungsaufgaben das Basismodell bei vergleichbarer Anzahl an Parametern übertrifft und im wortbasierten Sprachmodellierungsaufgaben das Basismodell bei fast 20 % weniger Parametern übertrifft. Unsere vorgeschlagenen Methoden erfordern keinen zusätzlichen Speicher. Darüber hinaus demonstrieren wir die Effektivität unserer Regularisierungsmechanismen am Beispiel von BERT, das bei mehreren GLUE-Aufgaben eine ähnliche Leistung zeigt, wobei die Standardabweichung der Scores um etwa 30 % reduziert wird.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp