PaLM: Skalierung des Sprachmodells mit Pathways

Große Sprachmodelle haben gezeigt, dass sie durch Few-Shot-Lernen bemerkenswerte Leistungen bei einer Vielzahl von natürlichsprachlichen Aufgaben erzielen können, was die Anzahl der für eine spezifische Anwendung benötigten Aufgabentrainingsexemplare drastisch reduziert. Um unser Verständnis des Einflusses der Größe auf das Few-Shot-Lernen zu vertiefen, trainierten wir ein 540-Milliarden-Parameter-Modell mit dichter Aktivierung, einen Transformer-Sprachmodell, das wir Pathways Language Model (PaLM) nennen. Wir trainierten PaLM auf 6144 TPU v4-Chips unter Verwendung von Pathways, einem neuen ML-System, das hoch effizientes Training über mehrere TPU-Pods ermöglicht. Wir zeigen fortlaufende Vorteile des Skalierens, indem wir den Stand der Technik in Few-Shot-Lernergebnissen bei Hunderten von Benchmarks für Sprachverstehen und -generierung erreichen. Bei einigen dieser Aufgaben erreicht PaLM 540B durchbrechende Leistungen und übertreffen die feinjustierten Stand-der-Technik-Modelle in einer Reihe von mehrstufigen Schließungsproblemen sowie den durchschnittlichen menschlichen Leistungsniveau im kürzlich veröffentlichten BIG-bench-Benchmark. Eine beträchtliche Anzahl von BIG-bench-Aufgaben zeigte diskontinuierliche Verbesserungen durch die Modellgröße, was bedeutet, dass die Leistung stark anstieg, als wir unser größtes Modell erreichten. PaLM verfügt auch über starke Fähigkeiten in multilingualen Aufgaben und Quellcodegenerierung, wie wir dies anhand einer breiten Palette von Benchmarks demonstrieren. Zudem liefern wir eine umfassende Analyse zu Verzerrung und Toxizität und untersuchen den Umfang der Trainingsdatenmemorisierung im Zusammenhang mit der Modellgröße. Schließlich diskutieren wir die ethischen Aspekte großer Sprachmodelle und potenzielle Minderungsstrategien.