HyperAIHyperAI

Command Palette

Search for a command to run...

QLoRA: Effizientes Feintuning quantisierter LLMs

Tim Dettmers Artidoro Pagnoni Ari Holtzman Luke Zettlemoyer

Zusammenfassung

Wir präsentieren QLoRA, einen effizienten Fine-Tuning-Ansatz, der den Speicherverbrauch so stark reduziert, dass ein Modell mit 65 Milliarden Parametern auf einer einzigen GPU mit 48 GB Speicher fine-tuned werden kann, ohne die volle 16-Bit-Fine-Tuning-Leistung zu verlieren. QLoRA leitet Gradienten durch ein frozen, 4-Bit-quantisiertes vortrainiertes Sprachmodell in Low-Rank-Adapter (LoRA) zurück. Unsere beste Modellfamilie, die wir Guanaco nennen, übertrifft alle bisher öffentlich verfügbaren Modelle im Vicuna-Benchmark und erreicht 99,3 % der Leistung von ChatGPT – und das nur mit 24 Stunden Fine-Tuning auf einer einzigen GPU. QLoRA führt mehrere Innovationen ein, um Speicher zu sparen, ohne die Leistung zu beeinträchtigen: (a) 4-Bit NormalFloat (NF4), einen neuen Datentyp, der informationstheoretisch optimal für normalverteilte Gewichte ist; (b) Doppelquantisierung, um den durchschnittlichen Speicherbedarf durch Quantisierung der Quantisierungskonstanten zu verringern; und (c) paginierte Optimierer zur Bewältigung von Speicherspitzen. Wir verwenden QLoRA, um mehr als 1.000 Modelle fine-tuning zu lassen, wobei wir eine detaillierte Analyse der Instruction-Following- und Chatbot-Leistung über acht Instruction-Datensätze, mehrere Modelltypen (LLaMA, T5) und Modellgrößen durchführen, die mit herkömmlichem Fine-Tuning nicht durchführbar wären (z. B. Modelle mit 33 und 65 Milliarden Parametern). Unsere Ergebnisse zeigen, dass QLoRA-Fine-Tuning auf einem kleinen, hochwertigen Datensatz bereits state-of-the-art-Ergebnisse liefert – selbst bei Verwendung kleinerer Modelle als die bisherige SOTA. Wir liefern eine detaillierte Analyse der Chatbot-Leistung basierend auf menschlichen und GPT-4-Bewertungen, wobei sich zeigt, dass GPT-4-Bewertungen eine kostengünstige und sinnvolle Alternative zu menschlichen Bewertungen darstellen. Darüber hinaus stellen wir fest, dass aktuelle Chatbot-Benchmarks nicht vertrauenswürdig sind, um die Leistungsfähigkeit von Chatbots genau zu bewerten. Eine „Lemon-Picking“-Analyse verdeutlicht, an welchen Stellen Guanaco gegenüber ChatGPT versagt. Wir stellen alle unsere Modelle und den Code, inklusive CUDA-Kerneln für 4-Bit-Training, öffentlich zur Verfügung.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp