HyperAIHyperAI

Command Palette

Search for a command to run...

Benötigen Sie ein kleines, spezialisiertes Language Model? Planen Sie früh!

David Grangier Angelos Katharopoulos Pierre Ablin Awni Hannun

Zusammenfassung

Große Sprachmodelle sind vielseitige Werkzeuge, eignen sich jedoch nicht für kleine Inferenzbudgets. Kleine Modelle zeichnen sich durch eine effizientere Inferenz aus, doch ihre geringere Kapazität bedeutet, dass ihre Leistung nur dann gut ist, wenn man ihren Anwendungsbereich auf einen spezialisierten Domänenbereich beschränkt. Diese Arbeit untersucht, wie man effektive, spezialisierte kleine Sprachmodelle unter Verwendung einer großen, allgemeinen Vortrainingsmenge und einer begrenzten Menge an spezialisierten Daten entwickeln kann. Wir betrachten zwei Szenarien, je nachdem, ob (i) man sich das Vortrainieren eines Modells für jede Spezialisierung leisten kann oder (ii) ein einzelnes vortrainiertes Modell kostengünstig für jede Aufgabe anpassen möchte. Im ersten Szenario schlagen wir eine effektive Lösung basierend auf der Bedeutungsprobenahme (importance sampling) vor: Wir resamplingen die Vortrainingsmenge, um die Spezialisierungsdaten nachzuahmen, und trainieren ein kleines Modell darauf. Im zweiten Szenario präsentieren wir eine neuartige Architektur, sogenannte projizierte Netzwerke (projected networks, PN). PN ist ein großes Netzwerk, dessen Parameter linear in ein kleineres Netzwerk zur Spezialisierung projiziert werden können. Für beide Szenarien zeigen wir empirisch die Wirksamkeit unserer Lösungen über verschiedene Domänen, Trainingsmengen und Trainingsbudgets hinweg.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp