HyperAIHyperAI

Command Palette

Search for a command to run...

DeLighT: Deep and Light-weight Transformer

Sachin Mehta Marjan Ghazvininejad Srinivasan Iyer Luke Zettlemoyer Hannaneh Hajishirzi

Zusammenfassung

Wir stellen einen tiefen und leichtgewichtigen Transformer, DeLighT, vor, der eine vergleichbare oder sogar bessere Leistung als herkömmliche Transformer-basierte Modelle erzielt, jedoch deutlich weniger Parameter verwendet. DeLighT verteilt die Parameter effizienter sowohl (1) innerhalb jedes Transformer-Blocks mittels der DeLighT-Transformation, einer tiefen und leichtgewichtigen Transformation, als auch (2) über die Blöcke hinweg mittels blockweiser Skalierung, wodurch flachere und schmalere DeLighT-Blöcke in der Nähe des Eingangs und breitere sowie tiefere Blöcke in der Nähe des Ausgangs ermöglicht werden. Insgesamt sind DeLighT-Netzwerke 2,5 bis 4 Mal tiefer als herkömmliche Transformer-Modelle, verfügen jedoch über weniger Parameter und Berechnungen. Experimente auf Standardaufgaben des maschinellen Übersetzens und der Sprachmodellierung zeigen, dass DeLighT die Leistung von Baseline-Transformern mit durchschnittlich 2 bis 3 Mal weniger Parametern erreicht oder sogar übertrifft. Unser Quellcode ist unter folgender URL verfügbar: \url{https://github.com/sacmehta/delight}


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp