ALBERT: Ein vereinfachtes BERT für das selbstüberwachte Lernen von Sprachrepräsentationen

Die Erhöhung der Modellgröße bei der Vortrainung natürlichsprachlicher Repräsentationen führt oft zu einer verbesserten Leistung bei nachfolgenden Aufgaben. Allerdings wird ab einem bestimmten Punkt eine weitere Vergrößerung des Modells aufgrund von Speicherbeschränkungen von GPUs/TPUs und längeren Trainingszeiten schwieriger. Um diese Probleme zu lösen, stellen wir zwei Parameterreduktionstechniken vor, die den Speicherverbrauch senken und die Trainingsgeschwindigkeit von BERT erhöhen. Umfassende empirische Beweise zeigen, dass unsere vorgeschlagenen Methoden zu Modellen führen, die sich im Vergleich zum ursprünglichen BERT viel besser skalieren. Wir verwenden außerdem einen selbstüberwachten Verlust, der sich auf das Modellieren der Kohärenz zwischen Sätzen konzentriert, und zeigen, dass dies konsistent den nachfolgenden Aufgaben mit mehrsätzigen Eingaben hilft. Als Ergebnis erreicht unser bestes Modell neue Standarte in den Benchmarks GLUE, RACE und SQuAD (Squad), obwohl es weniger Parameter als BERT-Large hat. Der Code und die vortrainierten Modelle sind unter https://github.com/google-research/ALBERT verfügbar.