Label-Supervised LLaMA Fine-Tuning

Der jüngste Erfolg von Large Language Models (LLMs) hat sowohl in der akademischen Forschung als auch in der Industrie erhebliche Aufmerksamkeit erregt. Um die Fähigkeit von Open-Source-LLMs zur Zero- und Few-Shot-Verallgemeinerung zu verbessern, wurden erhebliche Anstrengungen unternommen, insbesondere durch Fine-Tuning. Derzeit dominierende Herangehensweise ist die Instruction-Tuning-Strategie, bei der LLMs so trainiert werden, reale Anwendungsaufgaben zu bewältigen, indem sie auf natürlichsprachliche Anweisungen hin antworten. Es ist jedoch erwähnenswert, dass dieser Ansatz bei Sequenz- und Token-Klassifikationsaufgaben unterdurchschnittlich abschneidet. Im Gegensatz zu Textgenerierungsaufgaben, bei denen eine Vielzahl an menschenähnlichen und diversen Antworten geschätzt wird, ist bei Klassifikationsaufgaben eine präzise Vorhersage der Klassenlabels von höherer Relevanz. Vorangegangene Forschung hat gezeigt, dass instruction-tuned LLMs die Leistung von BERT nicht übertreffen können, was uns veranlasst hat, das Potenzial von latenten Darstellungen aus LLMs für die überwachte Label-Vorhersage zu untersuchen. In diesem Artikel stellen wir eine labelgestützte Anpassung für LLMs vor, die darauf abzielt, das Modell mit diskriminativen Labels zu fine-tunen. Wir evaluieren diesen Ansatz anhand von Label Supervised LLaMA (LS-LLaMA), basierend auf LLaMA-2-7B, einem vergleichsweise kleinskaligen LLM, der auf einer einzigen GeForce RTX 4090 GPU fine-tuned werden kann. Wir extrahieren latente Darstellungen aus der letzten LLaMA-Schicht und projizieren sie in den Label-Raum, um die Cross-Entropy-Verlustfunktion zu berechnen. Das Modell wird mittels Low-Rank Adaptation (LoRA) fine-tuned, um diesen Verlust zu minimieren. Erstaunlicherweise übertrifft LS-LLaMA ohne komplizierte Prompt-Engineering-Techniken oder externe Wissensquellen LLMs, die zehnmal größer sind, und zeigt konsistente Verbesserungen gegenüber robusten Benchmarks wie BERT-Large und RoBERTa-Large bei Textklassifikation. Darüber hinaus erreicht LS-unLLaMA, durch Entfernen der kausalen Maske aus den Decodern, die derzeit beste Leistung bei Named Entity Recognition (NER). Unsere Arbeit eröffnet einen neuen Ansatz zur Anpassung von LLMs für eine Vielzahl von Downstream-Aufgaben.