HyperAIHyperAI

Command Palette

Search for a command to run...

Die CoT-Sammlung: Verbesserung des Zero-shot- und Few-shot-Lernens von Sprachmodellen durch Chain-of-Thought-Finetuning

Seungone Kim Se June Joo Doyoung Kim Joel Jang Seonghyeon Ye Jamin Shin Minjoon Seo

Zusammenfassung

Sprachmodelle (LMs) mit weniger als 100 Milliarden Parametern sind bekanntermaßen bei der Kette-des-Denkens (Chain-of-Thought, CoT)-Reasoning auf unbekannten Aufgaben im Vergleich zu großen LMs schlechter. In dieser Arbeit zielen wir darauf ab, kleinere LMs durch Instruction-Tuning mit CoT-Argumentationen mit der Fähigkeit zur schrittweisen Schlussfolgerung auszustatten. Um dieses Ziel zu erreichen, führen wir zunächst eine neue Instruction-Tuning-Datensammlung namens CoT Collection ein, die die bestehende Flan Collection (die lediglich 9 CoT-Aufgaben enthält) um zusätzliche 1,84 Millionen Argumentationen über 1.060 Aufgaben erweitert. Wir zeigen, dass das Fine-Tuning von Flan-T5 (3B und 11B) mit der CoT Collection kleinere LMs befähigt, eine verbesserte CoT-Fähigkeit auf unbekannten Aufgaben zu zeigen. Auf der BIG-Bench-Hard (BBH)-Benchmark weisen wir eine durchschnittliche Verbesserung um +4,34 % (Flan-T5 3B) und +2,60 % (Flan-T5 11B) in Bezug auf die Zero-Shot-Aufgabenpräzision auf. Darüber hinaus zeigen wir, dass das Instruction-Tuning mit der CoT Collection LMs erlaubt, stärkere Few-Shot-Lernfähigkeiten auf vier domain-spezifischen Aufgaben zu entwickeln, was zu einer Verbesserung um +2,24 % (Flan-T5 3B) und +2,37 % (Flan-T5 11B) führt – selbst über ChatGPT hinaus, das Demonstrationen bis zur maximalen Länge nutzt, um +13,98 % zu überbieten. Unser Code, die CoT Collection-Daten und die Modell-Checkpoint sind öffentlich verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp