Zur Bedeutung des Volumens von Vortrainingsdaten für kompakte Sprachmodelle

Neuere Fortschritte in der Sprachmodellierung haben zu rechenintensiven und ressourcenintensiven State-of-the-Art-Modellen geführt. In einem Bemühung um nachhaltige Praktiken untersuchen wir den Einfluss des Volumens der Vortrainingsdaten auf kompakte Sprachmodelle. Mehrere auf BERT basierende Modelle werden auf schrittweise zunehmenden Mengen an französischem Text trainiert. Durch Fine-Tuning am französischen Fragebeantwortungsdatensatz (FQuAD) stellen wir fest, dass bereits mit lediglich 100 MB Text gut performende Modelle erzielt werden können. Zudem zeigen wir, dass eine vorherige, kritisch niedrige Menge an Vortrainingsdaten nicht durch einen intermediären Vortrainings-Schritt auf dem themenspezifischen Korpus signifikante Verbesserungen bringt.