HyperAI
Back to Headlines

Chinesische AI-Chatbot-Start-up nutzt Distillation: Effizientes Lernen für kleinere Modelle

vor 2 Tagen

Die chinesische KI-Firma DeepSeek veröffentlichte dieses Jahr einen Chatbot namens R1, der enorme Aufmerksamkeit erregte. Der Fokus lag darauf, dass ein relativ kleines und unbekanntes Unternehmen angeblich einen Chatbot entwickelt hatte, der die Leistungsfähigkeit der Modelle von weltberühmten KI-Unternehmen erreichte, jedoch nur mit einem Bruchteil des Rechenvermögens und der Kosten. Dies führte dazu, dass die Aktienkurse vieler westlicher Technologiefirmen in den Keller fielen; Nvidia, der Hersteller der Chips, die führende KI-Modelle betreiben, verlor an einem Tag mehr Aktienwert als jedes andere Unternehmen in der Geschichte. Ein Teil dieser Aufmerksamkeit war jedoch von Vorwürfen begleitet. Es wurde behauptet, dass DeepSeek, ohne Erlaubnis, Wissen aus OpenAIs proprietärem Modell o1 durch eine Technik namens Distillation erlangt habe. Viel der Medienberichterstattung stellte dies als Schock für die KI-Branche dar, wobei suggeriert wurde, dass DeepSeek eine neue, effizientere Methode zur Entwicklung von KI entdeckt hätte. Tatsächlich ist Distillation, auch bekannt als Wissensdistillation, ein weit verbreitetes Werkzeug im Bereich der Künstlichen Intelligenz. Es ist ein Forschungsgegenstand in der Informatik, der bereits zehn Jahre zurückreicht und von großen Technologiefirmen in ihren eigenen Modellen verwendet wird. „Distillation ist eines der wichtigsten Werkzeuge, die Unternehmen heute zur Verfügung haben, um Modelle effizienter zu machen“, sagte Enric Boix-Adsera, ein Forscher, der Distillation an der Wharton School der University of Pennsylvania untersucht. Der Ansatz der Distillation begann 2015 mit einer Arbeit von drei Google-Forschern, darunter Geoffrey Hinton, dem sogenannten Patriarchen der KI und Nobelpreisträger 2024. Zu diesem Zeitpunkt nutzten Forscher häufig Ensemble-Modelle – „viele Modelle, die zusammengeklebt waren“ – um ihre Leistung zu verbessern. „Aber es war unglaublich mühsam und teuer, alle Modelle parallel zu betreiben“, erklärte Oriol Vinyals, Hauptwissenschaftler bei Google DeepMind und Co-Autor der Arbeit. Die Forscher vermuteten, dass Ensemble-Modelle Informationen darüber enthielten, welche falschen Antworten weniger schlecht waren als andere. Vielleicht könnte ein kleineres „Schülermodell“ diese Informationen aus einem größeren „Lehrermodell“ nutzen, um schneller zu lernen, wie es bestimmte Kategorien von Bildern zuordnen sollte. Hinton nannte dies „dunkles Wissen“ und zog einen Vergleich mit kosmischem Dunklem Materie. Vinyals entwickelte eine Methode, mit der das große Lehrermodell dem kleineren Schülermodell mehr Informationen über die Bildkategorien vermitteln konnte. Das Wesentliche dabei war, auf „weiche Ziele“ im Lehrermodell zu fokussieren – wo Wahrscheinlichkeiten für jede Möglichkeit berechnet werden, anstelle von festen binären Antworten. Ein Modell berechnete beispielsweise, dass ein Bild mit 30% Wahrscheinlichkeit einen Hund, mit 20% eine Katze, mit 5% eine Kuh und mit 0,5% ein Auto zeigt. Durch diese Wahrscheinlichkeiten enthüllte das Lehrermodell dem Schüler, dass Hunde und Katzen sich sehr ähnlich sind, nicht so stark von Kühen abweichen, aber sehr unterschiedlich von Autos sind. Die Forscher fanden heraus, dass diese Informationen helfen, das Schülermodell effizienter zu lehren, wie es Bilder von Hunden, Katzen, Kühen und Autos zu identifizieren. Ein großes, komplexes Modell konnte so auf ein schlankeres Modell reduziert werden, ohne dabei die Genauigkeit erheblich einzubüßen. Die Idee traf jedoch nicht sofort auf Gegenliebe. Das Papier wurde von einer Konferenz abgelehnt, und Vinyals wandte sich entmutigt anderen Themen zu. Doch Distillation kam gerade zur richtigen Zeit. Etwa zu dieser Zeit entdeckten Ingenieure, dass die Effektivität von neuronalen Netzen mit zunehmender Menge an Trainingsdaten stieg. Die Größe der Modelle explodierte, ebenso wie ihre Fähigkeiten, aber auch die Kosten ihrer Betriebszahl. Viele Forscher wandten sich daher der Distillation zu, um kleinere Modelle zu erstellen. Im Jahr 2018 präsentierten Google-Forscher ein leistungsfähiges Sprachmodell namens BERT, das das Unternehmen bald benutzte, um Milliarden von Web-Suchen zu analysieren. BERT war jedoch groß und teuer im Betrieb, daher entwickelten andere Entwickler 2019 eine kleinere Version namens DistilBERT, die in Wirtschaft und Forschung breit genutzt wurde. Distillation wurde schließlich allgegenwärtig und wird nun von Unternehmen wie Google, OpenAI und Amazon als Service angeboten. Das ursprüngliche Distillation-Papier, das nur auf dem Preprint-Server arxiv.org erschien, wurde mittlerweile über 25.000 Mal zitiert. Da Distillation Zugang zu den internen Strukturen des Lehrermodells erfordert, ist es unmöglich, Daten heimlich aus einem geschlossenen Modell wie OpenAIs o1 zu destillieren, wie DeepSeek beschuldigt wurde. Dennoch kann ein Schülermodell immer noch viel lernen, indem es das Lehrermodell mit bestimmten Fragen „anstedet“ und die Antworten zur Schulung seiner eigenen Modelle nutzt – ein fast sokratischer Ansatz zur Distillation. Zu Beginn des Jahres zeigte das NovaSky-Labor an der University of California, Berkeley, dass Distillation auch gut für die Schulung von Modellen zur Ketten-Gedanken-Prozessierung funktioniert, die durch mehrstufiges „Denken“ besser in der Lage sind, komplexe Fragen zu beantworten. Das Labor betonte, dass sein vollständig quelloffener Sky-T1-Modell weniger als 450 US-Dollar Trainingskosten verursachte und ähnliche Ergebnisse wie ein viel größeres quelloffenes Modell erzielte. „Wir waren wirklich überrascht, wie gut Distillation in dieser Umgebung funktioniert hat“, sagte Dacheng Li, ein Doktorand an der UC Berkeley und Co-Lead des NovaSky-Teams. „Distillation ist eine grundlegende Technik in der KI.“ Industrie-Insider betrachten die Veröffentlichung von DeepSeeks R1 als eine wichtige Entwicklung, die die Dominanz großer Technologiefirmen in der KI-Branche infrage stellt. Die Fähigkeit, leistungsfähige KI-Modelle mit geringeren Ressourcen zu erstellen, könnte zu einer Demokratisierung des Zugangs zu fortschrittlicher KI führen. DeepSeek selbst hat durch seine Arbeit gezeigt, dass Innovation auch außerhalb der etablierten Kreise möglich ist, was die KI-Branche in ihrer Gesamtheit vor neuen Herausforderungen stellt. Firmenprofile wie DeepSeek und NovaSky unterstreichen, dass die KI-Forschung weiterhin dynamisch und vielfältig ist, unabhängig von den etablierten Akteuren.

Related Links