Die CoT-Sammlung: Verbesserung des Zero-shot- und Few-shot-Lernens von Sprachmodellen durch Chain-of-Thought-Finetuning

Sprachmodelle (LMs) mit weniger als 100 Milliarden Parametern sind bekanntermaßen bei der Kette-des-Denkens (Chain-of-Thought, CoT)-Reasoning auf unbekannten Aufgaben im Vergleich zu großen LMs schlechter. In dieser Arbeit zielen wir darauf ab, kleinere LMs durch Instruction-Tuning mit CoT-Argumentationen mit der Fähigkeit zur schrittweisen Schlussfolgerung auszustatten. Um dieses Ziel zu erreichen, führen wir zunächst eine neue Instruction-Tuning-Datensammlung namens CoT Collection ein, die die bestehende Flan Collection (die lediglich 9 CoT-Aufgaben enthält) um zusätzliche 1,84 Millionen Argumentationen über 1.060 Aufgaben erweitert. Wir zeigen, dass das Fine-Tuning von Flan-T5 (3B und 11B) mit der CoT Collection kleinere LMs befähigt, eine verbesserte CoT-Fähigkeit auf unbekannten Aufgaben zu zeigen. Auf der BIG-Bench-Hard (BBH)-Benchmark weisen wir eine durchschnittliche Verbesserung um +4,34 % (Flan-T5 3B) und +2,60 % (Flan-T5 11B) in Bezug auf die Zero-Shot-Aufgabenpräzision auf. Darüber hinaus zeigen wir, dass das Instruction-Tuning mit der CoT Collection LMs erlaubt, stärkere Few-Shot-Lernfähigkeiten auf vier domain-spezifischen Aufgaben zu entwickeln, was zu einer Verbesserung um +2,24 % (Flan-T5 3B) und +2,37 % (Flan-T5 11B) führt – selbst über ChatGPT hinaus, das Demonstrationen bis zur maximalen Länge nutzt, um +13,98 % zu überbieten. Unser Code, die CoT Collection-Daten und die Modell-Checkpoint sind öffentlich verfügbar.