HyperAIHyperAI
vor 2 Monaten

Skalierung von Sprachmodellen: Methoden, Analyse und Erkenntnisse aus der Ausbildung von Gopher

Jack W. Rae; Sebastian Borgeaud; Trevor Cai; Katie Millican; Jordan Hoffmann; Francis Song; John Aslanides; Sarah Henderson; Roman Ring; Susannah Young; Eliza Rutherford; Tom Hennigan; Jacob Menick; Albin Cassirer; Richard Powell; George van den Driessche; Lisa Anne Hendricks; Maribeth Rauh; Po-Sen Huang; Amelia Glaese; Johannes Welbl; Sumanth Dathathri; Saffron Huang; Jonathan Uesato; John Mellor; Irina Higgins; Antonia Creswell; Nat McAleese; Amy Wu; Erich Elsen; Siddhant Jayakumar; Elena Buchatskaya; David Budden; Esme Sutherland; Karen Simonyan; Michela Paganini; Laurent Sifre; Lena Martens; Xiang Lorraine Li; Adhiguna Kuncoro; Aida Nematzadeh; Elena Gribovskaya; Domenic Donato; Angeliki Lazaridou; Arthur Mensch; Jean-Baptiste Lespiau; Maria Tsimpoukelli; Nikolai Grigorev; Doug Fritz; Thibault Sottiaux; Mantas Pajarskas; Toby Pohlen; Zhitao Gong; Daniel Toyama; Cyprien de Masson d'Autume; Yujia Li; Tayfun Terzi; Vladimir Mikulik; Igor Babuschkin; Aidan Clark; Diego de Las Casas; Aurelia Guy; Chris Jones; James Bradbury; Matthew Johnson; Blake Hechtman; Laura Weidinger; Iason Gabriel; William Isaac; Ed Lockhart; Simon Osindero; Laura Rimell; Chris Dyer; Oriol Vinyals; Kareem Ayoub; Jeff Stanway; Lorrayne Bennett; Demis Hassabis; Koray Kavukcuoglu; Geoffrey Irving
Skalierung von Sprachmodellen: Methoden, Analyse und Erkenntnisse aus der Ausbildung von Gopher
Abstract

Sprachmodellierung stellt einen Schritt in Richtung intelligenter Kommunikationssysteme dar, indem sie große Repositorien menschlichen schriftlichen Wissens nutzt, um die Welt besser vorherzusagen und zu verstehen. In dieser Arbeit präsentieren wir eine Analyse der Leistung von Transformern-basierten Sprachmodellen über einen breiten Bereich von Modellgrößen – von Modellen mit zehn Millionen Parametern bis hin zu einem Modell mit 280 Milliarden Parametern namens Gopher. Diese Modelle werden anhand von 152 diversen Aufgaben evaluiert und erreichen in der Mehrheit der Fälle den Stand der Technik. Die Vorteile durch die Größenvergrößerung sind am größten in Bereichen wie Leseverständnis, Faktprüfung und der Identifizierung giftigen Sprachgebrauchs (toxic language), während logisches und mathematisches Denken weniger profitieren. Wir führen eine umfassende Analyse des Trainingsdatensatzes und des Verhaltens des Modells durch, wobei wir den Schnitt zwischen Modellgröße und Verzerrungen sowie giftigem Sprachgebrauch (toxicity) abdecken. Abschließend diskutieren wir die Anwendung von Sprachmodellen auf die Sicherheit künstlicher Intelligenz und die Minderung nachgeschalteter Schäden.