vor 2 Monaten

PaLM: Skalierung des Sprachmodells mit Pathways

Aakanksha Chowdhery; Sharan Narang; Jacob Devlin; Maarten Bosma; Gaurav Mishra; Adam Roberts; Paul Barham; Hyung Won Chung; Charles Sutton; Sebastian Gehrmann; Parker Schuh; Kensen Shi; Sasha Tsvyashchenko; Joshua Maynez; Abhishek Rao; Parker Barnes; Yi Tay; Noam Shazeer; Vinodkumar Prabhakaran; Emily Reif; Nan Du; Ben Hutchinson; Reiner Pope; James Bradbury; Jacob Austin; Michael Isard; Guy Gur-Ari; Pengcheng Yin; Toju Duke; Anselm Levskaya; Sanjay Ghemawat; Sunipa Dev; Henryk Michalewski; Xavier Garcia; Vedant Misra; Kevin Robinson; Liam Fedus; Denny Zhou; Daphne Ippolito; David Luan; Hyeontaek Lim; Barret Zoph; Alexander Spiridonov; Ryan Sepassi; David Dohan; Shivani Agrawal; Mark Omernick; Andrew M. Dai; Thanumalayan Sankaranarayana Pillai; Marie Pellat; Aitor Lewkowycz; Erica Moreira; Rewon Child; Oleksandr Polozov; Katherine Lee; Zongwei Zhou; Xuezhi Wang; Brennan Saeta; Mark Diaz; Orhan Firat; Michele Catasta; Jason Wei; Kathy Meier-Hellstern; Douglas Eck; Jeff Dean; Slav Petrov; Noah Fiedel

Details der Forschungsarbeit anzeigen

PaLM: Skalierung des Sprachmodells mit Pathways

Abstract

Große Sprachmodelle haben gezeigt, dass sie durch Few-Shot-Lernen bemerkenswerte Leistungen bei einer Vielzahl von natürlichsprachlichen Aufgaben erzielen können, was die Anzahl der für eine spezifische Anwendung benötigten Aufgabentrainingsexemplare drastisch reduziert. Um unser Verständnis des Einflusses der Größe auf das Few-Shot-Lernen zu vertiefen, trainierten wir ein 540-Milliarden-Parameter-Modell mit dichter Aktivierung, einen Transformer-Sprachmodell, das wir Pathways Language Model (PaLM) nennen. Wir trainierten PaLM auf 6144 TPU v4-Chips unter Verwendung von Pathways, einem neuen ML-System, das hoch effizientes Training über mehrere TPU-Pods ermöglicht. Wir zeigen fortlaufende Vorteile des Skalierens, indem wir den Stand der Technik in Few-Shot-Lernergebnissen bei Hunderten von Benchmarks für Sprachverstehen und -generierung erreichen. Bei einigen dieser Aufgaben erreicht PaLM 540B durchbrechende Leistungen und übertreffen die feinjustierten Stand-der-Technik-Modelle in einer Reihe von mehrstufigen Schließungsproblemen sowie den durchschnittlichen menschlichen Leistungsniveau im kürzlich veröffentlichten BIG-bench-Benchmark. Eine beträchtliche Anzahl von BIG-bench-Aufgaben zeigte diskontinuierliche Verbesserungen durch die Modellgröße, was bedeutet, dass die Leistung stark anstieg, als wir unser größtes Modell erreichten. PaLM verfügt auch über starke Fähigkeiten in multilingualen Aufgaben und Quellcodegenerierung, wie wir dies anhand einer breiten Palette von Benchmarks demonstrieren. Zudem liefern wir eine umfassende Analyse zu Verzerrung und Toxizität und untersuchen den Umfang der Trainingsdatenmemorisierung im Zusammenhang mit der Modellgröße. Schließlich diskutieren wir die ethischen Aspekte großer Sprachmodelle und potenzielle Minderungsstrategien.