HyperAIHyperAI
vor 17 Tagen

Few-Shot Parameter-Effizientes Fine-Tuning ist besser und kostengünstiger als In-Context Learning

Haokun Liu, Derek Tam, Mohammed Muqeeth, Jay Mohta, Tenghao Huang, Mohit Bansal, Colin Raffel
Few-Shot Parameter-Effizientes Fine-Tuning ist besser und kostengünstiger als In-Context Learning
Abstract

Few-shot In-Context-Learning (ICL) ermöglicht es vortrainierten Sprachmodellen, eine bisher nicht gesehene Aufgabe ohne gradientenbasiertes Training zu erfüllen, indem eine kleine Anzahl von Trainingsbeispielen als Teil der Eingabe bereitgestellt wird. ICL verursacht erhebliche rechnerische, speicher- und speicherplatzbezogene Kosten, da jeweils alle Trainingsbeispiele bei jeder Vorhersage verarbeitet werden müssen. Parameter-effizientes Fine-Tuning (PEFT) (z. B. Adapter-Module, Prompt-Tuning, sparse Update-Methoden usw.) bietet eine alternative Paradigmen, bei der eine kleine Menge an Parametern trainiert wird, um dem Modell die Ausführung der neuen Aufgabe zu ermöglichen. In diesem Paper vergleichen wir Few-shot-ICL und PEFT rigoros und zeigen, dass letzteres sowohl eine höhere Genauigkeit als auch deutlich geringere rechnerische Kosten bietet. Unterwegs stellen wir eine neue PEFT-Methode namens (IA)$^3$ vor, die Aktivierungen durch gelernte Vektoren skaliert und dabei eine stärkere Leistung erzielt, während lediglich eine vergleichsweise geringe Anzahl neuer Parameter hinzugefügt wird. Außerdem schlagen wir ein einfaches Rezept basierend auf dem T0-Modell vor, das wir T-Few nennen, das auf neue Aufgaben angewendet werden kann, ohne dass spezifische Anpassungen oder Tuning für die jeweilige Aufgabe erforderlich sind. Wir validieren die Wirksamkeit von T-Few an völlig neuen Aufgaben durch Anwendung auf die RAFT-Benchmark-Daten, wobei wir erstmals menschenübertreffende Leistung erzielen und die derzeit beste Methode um 6 Prozentpunkte absolut schlagen. Alle zur Durchführung unserer Experimente verwendeten Quellcodes sind öffentlich zugänglich.