HyperAIHyperAI

Command Palette

Search for a command to run...

Nicht alle Schichten sind gleich wichtig: Jede Schicht zählt bei BERT

Lucas Georges Gabriel Charpentier; David Samuel

Zusammenfassung

Dieses Papier stellt eine neuartige Modifikation der Transformer-Architektur vor, die für daten-effizientes Vortraining von Sprachmodellen angepasst ist. Diese Aspekt wird im Rahmen der Teilnahme an der BabyLM-Herausforderung evaluiert, bei der unsere Lösung sowohl den strengen als auch den streng-kleinen Wettbewerbsbereich gewann. Unser Ansatz ermöglicht es jeder Transformer-Schicht, auszuwählen, welche Ausgaben früherer Schichten verarbeitet werden sollen. Die empirischen Ergebnisse bestätigen das Potenzial dieser einfachen Modifikation und zeigen, dass nicht alle Schichten gleichermaßen wichtig sind.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp