Skalierung von Sprachmodellen: Methoden, Analyse und Erkenntnisse aus der Ausbildung von Gopher

Sprachmodellierung stellt einen Schritt in Richtung intelligenter Kommunikationssysteme dar, indem sie große Repositorien menschlichen schriftlichen Wissens nutzt, um die Welt besser vorherzusagen und zu verstehen. In dieser Arbeit präsentieren wir eine Analyse der Leistung von Transformern-basierten Sprachmodellen über einen breiten Bereich von Modellgrößen – von Modellen mit zehn Millionen Parametern bis hin zu einem Modell mit 280 Milliarden Parametern namens Gopher. Diese Modelle werden anhand von 152 diversen Aufgaben evaluiert und erreichen in der Mehrheit der Fälle den Stand der Technik. Die Vorteile durch die Größenvergrößerung sind am größten in Bereichen wie Leseverständnis, Faktprüfung und der Identifizierung giftigen Sprachgebrauchs (toxic language), während logisches und mathematisches Denken weniger profitieren. Wir führen eine umfassende Analyse des Trainingsdatensatzes und des Verhaltens des Modells durch, wobei wir den Schnitt zwischen Modellgröße und Verzerrungen sowie giftigem Sprachgebrauch (toxicity) abdecken. Abschließend diskutieren wir die Anwendung von Sprachmodellen auf die Sicherheit künstlicher Intelligenz und die Minderung nachgeschalteter Schäden.