vor 2 Monaten

MultiFiT: Effiziente Feinabstimmung von mehrsprachigen Sprachmodellen

Julian Martin Eisenschlos; Sebastian Ruder; Piotr Czapla; Marcin Kardas; Sylvain Gugger; Jeremy Howard

Abstract

Vorabtrainierte Sprachmodelle bieten besonders für ressourcenarme Sprachen vielversprechende Potenziale, da sie nur unannotierte Daten erfordern. Dennoch bedingt das Training bestehender Modelle enorme Rechenkapazitäten, während vorabtrainierte cross-linguale Modelle häufig bei ressourcenarmen Sprachen unter ihren Leistungsansprüchen bleiben. Wir schlagen Multi-lingual Language Model Fine-Tuning (MultiFiT) vor, um Praktikern die effiziente Anpassung und Weiterentwicklung von Sprachmodellen in ihrer eigenen Sprache zu ermöglichen. Darüber hinaus stellen wir eine zero-shot-Methode mithilfe eines bereits vorhandenen vorabtrainierten cross-lingualen Modells vor. Unsere Methoden wurden anhand zweier weit verbreiteter cross-lingualer Klassifikationsdatensätze evaluiert, wo sie Modelle übertrumpfen, die mit um Größenordnungen mehr Daten und Rechenkapazitäten vorabtrainiert wurden. Wir veröffentlichen alle Modelle und Code.