HyperAIHyperAI
vor 11 Tagen

Untersuchung der Vorteile der Ausbildung spezialisierter Sprachmodelle im Vergleich zur Anweisungstuning

Joel Jang, Seungone Kim, Seonghyeon Ye, Doyoung Kim, Lajanugen Logeswaran, Moontae Lee, Kyungjae Lee, Minjoon Seo
Untersuchung der Vorteile der Ausbildung spezialisierter Sprachmodelle im Vergleich zur Anweisungstuning
Abstract

Kürzlich haben Sprachmodelle (LMs), die auf mehreren Aufgaben durch mehrfach gesteuerte Feinabstimmung (multitask-prompted fine-tuning, MT) trainiert wurden, die Fähigkeit gezeigt, sich auf bisher unbekannte Aufgaben zu verallgemeinern. Frühere Arbeiten haben gezeigt, dass die Skalierung der Anzahl der Trainingsaufgaben der entscheidende Faktor für die Entwicklung leistungsfähigerer MT-LMs ist. In dieser Arbeit berichten wir über eine unerwartete Beobachtung: Ein Experte-LM, der auf lediglich einer einzigen Aufgabe feinabgestimmt wurde, erreicht auf 11 verschiedenen bisher unbekannten Datensätzen und auf 13 Datensätzen des BIG-bench-Benchmarks eine um durchschnittlich 3,20 % bzw. 1,29 % höhere Genauigkeit als ein MT-LM, der mit über 300 verschiedenen Aufgaben trainiert wurde. Diese Erkenntnis stellt die bisher gültige Annahme in Frage, dass eine einfache Erhöhung der Anzahl der Aufgaben zu leistungsfähigeren MT-LMs führt. Ausgehend von diesem Befund zeigen wir weiterhin, dass die verteilte Herangehensweise, für jede Trainingsaufgabe ein separates Experten-LM zu trainieren, anstelle eines einzigen MT-LMs für die Zero-shot-Inferenz, zahlreiche Vorteile bietet, darunter (1) die Vermeidung negativer Aufgabentransfer, die bei der Anweisungstuning-Phase häufig auftritt, (2) die kontinuierliche Lernfähigkeit neuer Aufgaben ohne erneute Retrainierung auf frühere Aufgaben, um katastrophales Vergessen zu vermeiden, und (3) die Fähigkeit zur kompositionellen Kombination einzelner Experten. Der Quellcode ist unter https://github.com/joeljang/ELM verfügbar.

Untersuchung der Vorteile der Ausbildung spezialisierter Sprachmodelle im Vergleich zur Anweisungstuning | Neueste Forschungsarbeiten | HyperAI