Stanford lehrt Language Modeling von Grund auf
Das Stanford-Kursangebot CS336 mit dem Titel „Language Modeling from Scratch" richtet sich an Wissenschaftler und Ingenieure, die ein tiefgreifendes Verständnis moderner Spracherkennungssysteme erwerben möchten. Der Kurs konzentriert sich darauf, die Teilnehmer durch den vollständigen Entwicklungsprozess von Sprachmodellen zu führen, angelehnt an die Didaktik von Betriebssystem-Kursen, die das Programmieren eines gesamten Betriebssystems zum Ziel haben. Im Mittelpunkt stehen Datenerfassung, Bereinigung, der Aufbau von Transformer-Architekturen, das Training sowie die Evaluierung und Bereitstellung der Modelle. Ein zentrales Merkmal dieser Lehrveranstaltung ist die intensive praktische Umsetzung. Im Gegensatz zu vielen anderen AI-Kursen erhalten die Studierenden nur minimale Infrastrukturhilfen, was bedeutet, dass sie selbst den Großteil des Codes schreiben müssen. Die geforderte Programmierleistung übertrifft andere Kurse um das Zehnfache, weshalb fundierte Python-Kenntnisse und Fähigkeiten in der Softwareentwicklung vorausgesetzt werden. Daneben ist Erfahrung im Bereich Deep Learning und Systemoptimierung unerlässlich, da ein signifikanter Teil des Kurses die effiziente Ausführung neuronaler Netze auf GPUs über mehrere Maschinen hinweg umfasst. Die Studierenden sollten daher mit PyTorch vertraut sein und Grundkonzepte der Speicherverwaltung beherrschen. Die theoretischen Grundlagen setzen Kenntnisse in linearer Algebra, Differentialrechnung sowie Wahrscheinlichkeits- und Statistiktheorie voraus. Zudem werden grundlegende Kenntnisse in maschinellem Lernen erwartet. Der Kurs ist als intensives, fünf Credits schweres Programm konzipiert, das eine erhebliche zeitliche Investition erfordert. Die Aufgabenstellungen decken Themen von Tokenisierung und PyTorch-Funktionen über verschiedene Architekturen und Aufmerksamkeitsmechanismen bis hin zu Skalierbarkeit, Inferenz und Datenverarbeitung ab. Die Vorlesungen werden von Dozenten wie Percy Liang und Tatsu Hashimoto geleitet und umfassen auch Gastvorträge von Experten wie Daniel Selsam und Dan Fu. Für Studierende, die den Kurs begleitend zu Hause absolvieren, besteht die Möglichkeit, Cloud-GPU-Rechenleistung für die Übungen zu nutzen. Es wird dringend empfohlen, die Korrektheit der Implementierungen zunächst auf CPUs zu testen und erst danach GPUs für das eigentliche Training oder Benchmarking einzusetzen, um Kosten zu sparen. Die Regeln zur akademischen Integrität sind streng. Gruppenarbeit zum Verständnis ist erlaubt, jedoch muss jeder Studierende seine eigene Aufgabe abgeben. Die Verwendung von KI-Tools wie LLMs ist für konzeptionelle Fragen oder niedrige Programmierfragen gestattet, jedoch ist es untersagt, die KI zur direkten Lösung der Aufgaben einzusetzen. Insbesondere das automatische Vervollständigen von Code durch KI-Assistenten wie GitHub Copilot wird stark discouraged, da es das tiefe Verständnis des Inhalts erschwert. Auch die Übernahme existierender Code-Schnipsel aus dem Internet ist verboten, da die Kursunterlagen selbstständig entwickelt werden sollen. Der Lehrplan erstreckt sich von Ende März bis Anfang Juni und behandelt sukzessive fortgeschrittene Themen wie Parallelisierung, Skalierungsgesetze, Reinforcement Learning from Human Feedback (RLHF) und Alignment-Techniken. Die Zuordnungen von Abgabetermine sind eng getaktet, wobei Nachfrist-Tage und Anträge auf Neubewertung innerhalb von drei Tagen nach Veröffentlichung der Noten möglich sind. Der Kurs wird von Modal für die Bereitstellung von Rechenleistung gesponsert, was die praktische Durchführung auf modernen Hardware-Plattformen ermöglicht.
