Textbücher sind alles, was Sie benötigen II: phi-1.5 Technischer Bericht

Wir setzen die Untersuchungen zur Leistungsfähigkeit kleinerer transformerbasierter Sprachmodelle fort, wie sie durch \textbf{TinyStories} -- ein Modell mit 10 Millionen Parametern, das kohärentes Englisch erzeugen kann -- und die nachfolgende Arbeit an \textbf{phi-1}, einem Modell mit 1,3 Milliarden Parametern und nahezu state-of-the-art Python-Codierungsaufgabenleistung, eingeleitet wurden. Die letztere Arbeit schlug vor, existierende große Sprachmodelle (LLMs) zu nutzen, um „textbuchqualitative“ Daten zu generieren, um den Lernprozess im Vergleich zu traditionellen Webdaten zu verbessern. Wir folgen dem Ansatz „Textbooks Are All You Need“, konzentrieren uns dieses Mal auf das allgemeine Schließen in natürlicher Sprache und erstellen ein neues Modell namens \textbf{phi-1.5} mit 1,3 Milliarden Parametern. Dieses Modell erreicht bei natürlichsprachlichen Aufgaben eine Leistung, die vergleichbar ist mit Modellen, die fünfmal größer sind, und übertrifft die meisten nicht-grenznahen LLMs bei komplexeren Schließleistungen wie Grundschulmathematik und grundlegendem Programmieren. Im Allgemeinen zeigt \textbf{phi-1.5} viele der Eigenschaften viel größerer LLMs, sowohl positive -- wie zum Beispiel die Fähigkeit, „Schritt für Schritt“ zu denken oder rudimentäre kontextbezogene Lernprozesse durchzuführen -- als auch negative Eigenschaften, einschließlich Halluzinationen und dem Potenzial für giftige und verzerrende Generierungen -- ermutigenderweise beobachten wir jedoch Fortschritte in dieser Hinsicht dank des Fehlens von Webdaten. Wir stellen \textbf{phi-1.5} als Open Source zur Verfügung, um weitere Forschung zu diesen dringenden Themen zu fördern.