HyperAIHyperAI
vor 9 Tagen

Benötigen Sie ein kleines, spezialisiertes Language Model? Planen Sie früh!

David Grangier, Angelos Katharopoulos, Pierre Ablin, Awni Hannun
Benötigen Sie ein kleines, spezialisiertes Language Model? Planen Sie früh!
Abstract

Große Sprachmodelle sind vielseitige Werkzeuge, eignen sich jedoch nicht für kleine Inferenzbudgets. Kleine Modelle zeichnen sich durch eine effizientere Inferenz aus, doch ihre geringere Kapazität bedeutet, dass ihre Leistung nur dann gut ist, wenn man ihren Anwendungsbereich auf einen spezialisierten Domänenbereich beschränkt. Diese Arbeit untersucht, wie man effektive, spezialisierte kleine Sprachmodelle unter Verwendung einer großen, allgemeinen Vortrainingsmenge und einer begrenzten Menge an spezialisierten Daten entwickeln kann. Wir betrachten zwei Szenarien, je nachdem, ob (i) man sich das Vortrainieren eines Modells für jede Spezialisierung leisten kann oder (ii) ein einzelnes vortrainiertes Modell kostengünstig für jede Aufgabe anpassen möchte. Im ersten Szenario schlagen wir eine effektive Lösung basierend auf der Bedeutungsprobenahme (importance sampling) vor: Wir resamplingen die Vortrainingsmenge, um die Spezialisierungsdaten nachzuahmen, und trainieren ein kleines Modell darauf. Im zweiten Szenario präsentieren wir eine neuartige Architektur, sogenannte projizierte Netzwerke (projected networks, PN). PN ist ein großes Netzwerk, dessen Parameter linear in ein kleineres Netzwerk zur Spezialisierung projiziert werden können. Für beide Szenarien zeigen wir empirisch die Wirksamkeit unserer Lösungen über verschiedene Domänen, Trainingsmengen und Trainingsbudgets hinweg.

Benötigen Sie ein kleines, spezialisiertes Language Model? Planen Sie früh! | Neueste Forschungsarbeiten | HyperAI