vor 2 Monaten

Galactica: Ein großes Sprachmodell für die Wissenschaft

Ross Taylor; Marcin Kardas; Guillem Cucurull; Thomas Scialom; Anthony Hartshorn; Elvis Saravia; Andrew Poulton; Viktor Kerkez; Robert Stojnic

Details der Forschungsarbeit anzeigen

Galactica: Ein großes Sprachmodell für die Wissenschaft

Abstract

Die Informationsflut stellt ein wesentliches Hindernis für den wissenschaftlichen Fortschritt dar. Das explosionsartige Wachstum der wissenschaftlichen Literatur und Daten hat es zunehmend schwierig gemacht, nützliche Erkenntnisse in einem großen Informationsmass zu entdecken. Heutzutage wird wissenschaftliches Wissen über Suchmaschinen abgerufen, aber diese sind allein nicht in der Lage, das wissenschaftliche Wissen zu organisieren. In dieser Arbeit stellen wir Galactica vor: ein großes Sprachmodell, das wissenschaftliches Wissen speichern, kombinieren und verarbeiten kann. Wir trainieren das Modell anhand eines umfangreichen wissenschaftlichen Korpus aus Artikeln, Referenzmaterialien, Wissensbasen und vielen anderen Quellen. Bei einer Reihe von wissenschaftlichen Aufgaben übertreffen wir bestehende Modelle. Bei technischen Kenntnisprüfungen wie LaTeX-Gleichungen erreicht Galactica eine Trefferquote von 68,2 % im Vergleich zu 49,0 % des neuesten GPT-3. Galactica erzielt auch bei der Verarbeitung mathematischer Aufgaben (MMLU) bessere Ergebnisse als Chinchilla mit 41,3 % gegenüber 35,7 % und bei MATH übertreffen wir PaLM 540B mit einem Score von 20,4 % gegenüber 8,8 %. Es setzt zudem neue Maßstäbe bei nachgeschalteten Aufgaben wie PubMedQA und MedMCQA dev mit 77,6 % und 52,9 %. Trotzdem es nicht auf einem allgemeinen Korpus trainiert wurde, übertreffen wir mit Galactica BLOOM und OPT-175B bei BIG-bench. Wir glauben, dass diese Ergebnisse das Potenzial von Sprachmodellen als neue Schnittstelle für die Wissenschaft zeigen. Das Modell wird Open Source veröffentlicht, um der wissenschaftlichen Gemeinschaft zu Nutze zu sein.