QLoRA: Effizientes Feintuning quantisierter LLMs

Wir präsentieren QLoRA, einen effizienten Fine-Tuning-Ansatz, der den Speicherverbrauch so stark reduziert, dass ein Modell mit 65 Milliarden Parametern auf einer einzigen GPU mit 48 GB Speicher fine-tuned werden kann, ohne die volle 16-Bit-Fine-Tuning-Leistung zu verlieren. QLoRA leitet Gradienten durch ein frozen, 4-Bit-quantisiertes vortrainiertes Sprachmodell in Low-Rank-Adapter (LoRA) zurück. Unsere beste Modellfamilie, die wir Guanaco nennen, übertrifft alle bisher öffentlich verfügbaren Modelle im Vicuna-Benchmark und erreicht 99,3 % der Leistung von ChatGPT – und das nur mit 24 Stunden Fine-Tuning auf einer einzigen GPU. QLoRA führt mehrere Innovationen ein, um Speicher zu sparen, ohne die Leistung zu beeinträchtigen: (a) 4-Bit NormalFloat (NF4), einen neuen Datentyp, der informationstheoretisch optimal für normalverteilte Gewichte ist; (b) Doppelquantisierung, um den durchschnittlichen Speicherbedarf durch Quantisierung der Quantisierungskonstanten zu verringern; und (c) paginierte Optimierer zur Bewältigung von Speicherspitzen. Wir verwenden QLoRA, um mehr als 1.000 Modelle fine-tuning zu lassen, wobei wir eine detaillierte Analyse der Instruction-Following- und Chatbot-Leistung über acht Instruction-Datensätze, mehrere Modelltypen (LLaMA, T5) und Modellgrößen durchführen, die mit herkömmlichem Fine-Tuning nicht durchführbar wären (z. B. Modelle mit 33 und 65 Milliarden Parametern). Unsere Ergebnisse zeigen, dass QLoRA-Fine-Tuning auf einem kleinen, hochwertigen Datensatz bereits state-of-the-art-Ergebnisse liefert – selbst bei Verwendung kleinerer Modelle als die bisherige SOTA. Wir liefern eine detaillierte Analyse der Chatbot-Leistung basierend auf menschlichen und GPT-4-Bewertungen, wobei sich zeigt, dass GPT-4-Bewertungen eine kostengünstige und sinnvolle Alternative zu menschlichen Bewertungen darstellen. Darüber hinaus stellen wir fest, dass aktuelle Chatbot-Benchmarks nicht vertrauenswürdig sind, um die Leistungsfähigkeit von Chatbots genau zu bewerten. Eine „Lemon-Picking“-Analyse verdeutlicht, an welchen Stellen Guanaco gegenüber ChatGPT versagt. Wir stellen alle unsere Modelle und den Code, inklusive CUDA-Kerneln für 4-Bit-Training, öffentlich zur Verfügung.