vor 2 Monaten
Nicht alle Schichten sind gleich wichtig: Jede Schicht zählt bei BERT
Lucas Georges Gabriel Charpentier; David Samuel

Abstract
Dieses Papier stellt eine neuartige Modifikation der Transformer-Architektur vor, die für daten-effizientes Vortraining von Sprachmodellen angepasst ist. Diese Aspekt wird im Rahmen der Teilnahme an der BabyLM-Herausforderung evaluiert, bei der unsere Lösung sowohl den strengen als auch den streng-kleinen Wettbewerbsbereich gewann. Unser Ansatz ermöglicht es jeder Transformer-Schicht, auszuwählen, welche Ausgaben früherer Schichten verarbeitet werden sollen. Die empirischen Ergebnisse bestätigen das Potenzial dieser einfachen Modifikation und zeigen, dass nicht alle Schichten gleichermaßen wichtig sind.