HyperAI

Sich Aufrollen? Nvidia Veröffentlicht Großes Modell ChipNeMo, Angepasst Für Chipdesign

vor einem Jahr
Information
zhaorui
特色图像

Nvidia hat mit ChipNeMo ein benutzerdefiniertes großes Sprachmodell veröffentlicht, das auf der Grundlage eigener interner Daten trainiert wurde, um Ingenieuren bei der Erledigung von Aufgaben im Zusammenhang mit dem Chipdesign zu helfen.

Hier nahm Huang Renxun an der Jahresversammlung teil, trug eine geblümte Weste und hielt ein Taschentuch in der Hand. Da drüben,Sam Altman  Für den Aufbau neuer KI-Chip-Unternehmen werden Milliarden aufgebracht.

Der Kontrast zwischen Selbstgefälligkeit und Ehrgeiz ist das wahre Bild des aktuellen KI-Chip-Bereichs. In einer Ära, in der Rechenleistung das Wichtigste ist, erwürgt Nvidia beinahe alle. Aus diesem Grund schießen immer mehr KI-Chip-Startups wie Pilze aus dem Boden und einige behaupten sogar, mit Nvidia zu konkurrieren und es zu ersetzen. Gleichzeitig haben auch große Unternehmen wie Microsoft und Google begonnen, verstärkt eigene Chips zu entwickeln.

Tatsächlich sind Chips seit dem Beginn des intelligenten Zeitalters zur „Achillesferse“ vieler Technologiegiganten geworden, und die hohe Schwelle der Halbleiterindustrie macht es zudem schwierig, diese technologische Belagerung einfach zu überwinden. Neben dem Produktionsprozess, den Huawei bereits „erklärt“ hat, ist auch das Halbleiterdesign äußerst anspruchsvoll. Insbesondere wenn elektronische Chips an die Grenzen des Mooreschen Gesetzes stoßen und der Bedarf an Rechenleistung weiter steigt, ist die Frage, wie bei fortschrittlichen Prozessen eine höhere Leistung erreicht werden kann, zu einer wichtigen Herausforderung bei der Entwicklung von KI-Chips geworden.

GH100 Voll-GPU mit 144 SMs

Wie in der Abbildung oben gezeigt, sieht ein fortschrittlicher Chip wie die NVIDIA H100 Tensor Core GPU unter dem Mikroskop wie eine sorgfältig geplante Stadt aus, die aus zig Milliarden Transistoren besteht, die durch „Straßen“ verbunden sind, die 10.000 Mal dünner sind als ein menschliches Haar. Der Bau der gesamten Stadt erfordert die Zusammenarbeit mehrerer Ingenieurteams über einen Zeitraum von zwei Jahren.

Dabei teilen sich verschiedene Abteilungen die Arbeit auf und kooperieren miteinander. Einige definieren die Gesamtarchitektur des Chips, andere sind für das Design und Layout verschiedener ultrakleiner Schaltkreise verantwortlich und wieder andere sind für das Testen zuständig. Jede Aufgabe erfordert spezielle Methoden, Softwareprogramme und Computersprachen, was die Komplexität verdeutlicht. Genau hierin liegt der technologische Schutzgraben der Chiphersteller.

Interessant ist, dass Nvidia, das mit seinen leistungsstärksten KI-Chips die Geldbörsen großer Hersteller leer räumt, ebenfalls darüber nachdenkt, KI zu nutzen, um „einfacher“ Geld zu verdienen. Vor nicht allzu langer Zeit,NVIDIA hat ein benutzerdefiniertes großes Sprachmodell namens ChipNeMo veröffentlicht, das auf der Grundlage eigener interner Daten trainiert wurde.Es kann Ingenieuren bei der Erledigung von Aufgaben im Zusammenhang mit dem Chipdesign helfen und ist derzeit nur für den internen Gebrauch bestimmt.

Dieses Ergebnis wurde in arXiv aufgenommen, Adresse des Artikels:
https://arxiv.org/abs/2311.00176
Folgen Sie dem offiziellen Konto und antworten Sie mit "ChipNeMo", um das Dokument herunterzuladen

Anpassen von LLM für das Chipdesign basierend auf Domänenanpassungstechnologie

Die NVIDIA-Forscher entschieden sich nicht dafür, vorhandene LLMs direkt einzusetzen, sondern passten stattdessen die Basismodelle (LLaMA2 mit 7 Milliarden Parametern, 13 Milliarden Parametern und 70 Milliarden Parametern) mithilfe von NVIDIA NeMo auf Basis der Domänenanpassungstechnologie an.
Hinweis: NVIDIA NeMo ist ein durchgängiges Cloud-natives Framework, das die flexible Erstellung, Anpassung und Bereitstellung generativer KI-Modelle ermöglicht, einschließlich Trainings- und Inferenz-Frameworks, Guardrail-Toolkits, Datenverwaltungstools und vortrainierter Modelle.

ChipNeMo verwendet eine Vielzahl von Domänenanpassungstechniken, um LLMs an die Chipdesigndomäne anzupassen, darunter:
* benutzerdefinierte Tokenisierer für Chipdesigndaten * domänenadaptives kontinuierliches Vortraining unter Verwendung großer Mengen von Domänendaten * überwachtes Feintuning mit domänenspezifischen Anweisungen * Verwendung fein abgestimmter Abrufmodelle * Retrieval-Augmented Generation (RAG)

Die Forscher führten Feldtests an ChipNeMo mithilfe von drei spezifischen Anwendungen durch: einem Chatbot für technische Assistenten, einer EDA-Skriptgenerierung sowie einer Fehlerzusammenfassung und -analyse.

ChipNeMo-Trainingsprozess

Unter anderem können domänenspezifische Wortsegmentierer die Tokenisierungseffizienz bestimmter Begriffe durch die Anpassung von Regeln verbessern. Die Forscher passten den vortrainierten Tokenizer von ChipNeMo an den Chipdesign-Datensatz der Studie an und fügten nur für domänenspezifische Begriffe neue Tags hinzu.

Während des domänenadaptiven Vortrainings (DAPT) kombinierten die Forscher die internen Chipdesigndaten von NVIDIA mit öffentlichen Datensätzen, sammelten, bereinigten und filterten sie.Der interne Datentrainingskorpus umfasst insgesamt 23,1 Milliarden Token.Umfasst Design, Verifizierung, Infrastruktur und zugehörige interne Dokumentation.

Bei der Durchführung einer überwachten Feinabstimmung mit domänenspezifischen Anweisungen (SFT) verwendeten die Forscher einen öffentlichen allgemeinen Chat-Befehlsdatensatz, um mehrere Chat-Runden durchzuführen, und kombinierten ihn mit einer kleinen Menge domänenspezifischer Befehlsdatensätze, um SFT auf dem ChipNeMo-Basismodell durchzuführen und so das ChipNeMo-Chat-Modell zu generieren.

Darüber hinaus verwendeten die Forscher Tevatron  Das Framework generiert 3.000 domänenspezifische, automatisch generierte Beispiele und optimiert das kleine, unüberwachte E5-Modell, um das domänenangepasste Abrufmodell dieser Studie zu erstellen.

Um das häufige „Halluzinationsproblem“ von ChatBot zu lösen,Die Forscher verwendeten Retrieval-Augmented Generation (RAG), um die Qualität der Antworten auf domänenspezifische Fragen zu verbessern.

Insbesondere ruft RAG relevante Passagen aus der Datenbank ab und fügt sie zusammen mit der Frage in die Eingabeaufforderung ein. Dadurch kann LLM genauere und faktenbasiertere Antworten generieren. Gleichzeitig stellten die Forscher fest, dass die Abrufgenauigkeit durch Feinabstimmung des unbeaufsichtigten, vortrainierten dichten Abrufmodells mithilfe einer entsprechenden Menge domänenspezifischer Trainingsdaten erheblich verbessert werden kann.

RAG-Implementierungsprozess


Darüber hinaus ermöglicht die Domänenanpassungstechnologie nicht nur eine bessere Anpassung großer Sprachmodelle an den Chipdesignbereich, sondern kann auch die Modellparameter um bis zu das Fünffache reduzieren und so die Inferenzkosten senken.

Es ist erwähnenswert, dassAlle Modelle wurden mit 128 A100-GPUs trainiert.Die Forscher schätzten die Kosten des domänenadaptiven Vortrainings für ChipNeMo wie in der folgenden Tabelle dargestellt. Davon entfallen auf DAPT weniger als 1,5% der Gesamtkosten für das Vortraining des Basismodells von Grund auf.

Benutzerdefiniertes Modell mit 13 Milliarden Parametern übertrifft LLaMA2

Die Forscher überwachten und bewerteten die tatsächliche Leistung von ChipNeMo in drei Chipdesign-Anwendungen: Engineering Assistant Chatbot, EDA-Skriptgenerierung sowie Fehlerzusammenfassung und -analyse.

Erste,Der Engineering Assistant-Chatbot kann Chipdesign-Ingenieuren dabei helfen, Fragen zu Architektur, Design, Verifizierung usw. zu beantworten. So wird verhindert, dass sie Code auf Grundlage falscher Annahmen schreiben oder unbekannten Code debuggen, und so die Produktivität gesteigert. Darüber hinaus kann der Chatbot auch relevantes Wissen aus internen Designdokumenten, Codes, anderen aufgezeichneten Daten zum Design und Spuren der technischen Kommunikation (E-Mails, Instant Messaging des Unternehmens usw.) extrahieren, um Ingenieuren dabei zu helfen, ihre Arbeitseffizienz zu verbessern.

Beispiel für einen Chatbot für technische Assistenten

Zweitens,EDA-Skripting ist ein wichtiger Teil des industriellen Chip-Designprozesses. In der Vergangenheit mussten Ingenieure interne Skriptbibliotheken erlernen, die Tooldokumentation konsultieren und Skripte debuggen, was viel Zeit in Anspruch nahm. Daher generierten die Forscher aus der Aufgabenbeschreibung in natürlicher Sprache zwei verschiedene Arten von Skripten basierend auf Tool1 (Python) und Tool2 (TCL). Ingenieure können das Modell abfragen und den generierten Code in derselben Schnittstelle ausführen und gleichzeitig sehen, wie viele weitere Korrekturen erforderlich sind, um ein ausführbares Skript zu erhalten.

Integration des LLM-Skriptgenerators mit EDA-Tools
Beispiel für einen EDA-Skriptgenerator

dritte,Zur Fehlerzusammenfassung und -analyse verwendeten die Forscher die interne Fehlerdatenbank NVBugs von NVIDIA und erstellten außerdem einen domänenspezifischen SFT-Datensatz.

Beispiel für eine Fehlerzusammenfassung und -analyse

Die Forscher führten eine vergleichende Bewertung der Leistung von ChipNeMo auf der Grundlage von Chipdesign-Kenntnissen, EDA-Skripten, Fehleranalysen, Schaltungsdesign und MMLU (Mean Multi-Language Understanding) durch.

Die Ergebnisse zeigen, dassDie Leistung von ChipNeMo verbessert sich mit der Parametergröße des Basismodells und das domänenadaptive Vortraining von ChipNeMo bietet erhebliche Leistungsverbesserungen gegenüber dem Basismodell. Gleichzeitig übertrifft das optimale ChipNeMo-Modell GPT-3.5 bei allen Benchmarks und GPT-4 bei den Designwissen- und Fehler-Benchmarks.

Darüber hinaus in der Chip-Design-Aufgabe,Das benutzerdefinierte ChipNeMo-Modell mit nur 13 Milliarden Parametern erreicht oder übertrifft die Leistung größerer allgemeiner Sprachmodelle (wie LLaMA2, das 70 Milliarden Parameter enthält).

Das Entwerfen von Chips mit großen Modellen ist nichts Neues

Derzeit ist ChipNeMo nur für den internen Gebrauch bestimmt und da es für das Training interne Daten von Nvidia nutzt, ist es unwahrscheinlich, dass es in Zukunft als Open Source zur Verfügung gestellt wird. Dennoch ist Nvidias Schritt als Grafikkarten-Gigant, Arbeitsabläufe mithilfe großer Sprachmodelle zu optimieren, für die Branche immer noch sehr inspirierend.

einerseits,Die hohen Anforderungen an das Chipdesign spiegeln sich nicht nur in den technischen Hürden wider, sondern auch in der Erfahrung und den Kosten. Jeder Schritt vom Entwurf über die Umsetzung bis hin zur Produktion kann im Branchenwettbewerb zu einem „Überholpunkt“ werden. Durch die Hinzufügung großer Modelle können einige Startups, die spät gestartet sind und nicht über ausreichende Erfahrung verfügen, in kürzerer Zeit „von den Stärken anderer lernen“ und es kann sogar so betrachtet werden, als würden sie direkt einen erfahrenen Ingenieur einstellen. Dies erfordert jedoch mehr Open-Source-Daten und Modellunterstützung.

auf der anderen Seite,Während große Modelle in Form von Chatbots die Welt weiterhin in Erstaunen versetzen, möchten viele Unternehmen große Sprachmodelle auf Basis von Open-Source-Modellen entwickeln, die besser mit den Besonderheiten ihrer eigenen Branche und ihren Geschäftsattributen übereinstimmen. Die meisten von ihnen haben jedoch einen Rückzieher gemacht, weil die hohen Ausbildungskosten schwer zu bewältigen sind. Gleichzeitig müssen sie auch die Sicherheit der Trainingsdaten berücksichtigen. Dies wird auch von NVIDIA bestätigt. Die 128 A100-GPUs, die zum Trainieren von ChipNeMo verwendet werden, sind nicht für alle Unternehmen problemlos verfügbar.

Es ist erwähnenswert, dass ChipNeMo nicht das erste Mal ist, dass große Modelle im Chipbereich verwendet werden.

Bereits im Mai 2023Forschern der Tandon School of Engineering der New York University ist es erstmals gelungen, künstliche Intelligenz zum Entwurf eines Mikroprozessorchips einzusetzen, indem sie mit der KI „sprachen“.

Link zum Artikel:
https://arxiv.org/abs/2305.13243
Folgen Sie dem offiziellen Konto und antworten Sie mit „Chip-Chat“, um das Dokument herunterzuladen

„Ich bin überhaupt kein Experte für Chipdesign“, sagte Hammond Pearce, Professor an der New York University, in einem Interview. „Dies ist der erste Chip, den ich je entwickelt habe. Ich denke, das ist einer der Gründe, warum er so beeindruckend ist.“

Konkret gelang es den Forschern, mithilfe von GPT-4 einen 8-Bit-Akkumulator-Mikroprozessor über 124 Konversationen zu entwerfen, der mit dem 130-nm-Shuttle von Skywater hergestellt wurde.

Am Tag nach der Veröffentlichung der ForschungsergebnisseDas Institute of Computing Technology der Chinesischen Akademie der Wissenschaften hat ChipGPT auf arXiv veröffentlicht.Die Diskussion ist erneut heftig entfacht. Die Forscher sagten, ChipGPT sei ein Versuch, die Machbarkeit der automatischen Generierung von Logikdesigns unter Verwendung von Chip-Spezifikationen in natürlicher Sprache zu untersuchen und aktuelle LLMs zu nutzen, um die Kosten des Hardware-Frontend-Designs zu senken, das traditionell ein hohes Maß an Fachwissen und Handarbeit erfordert.

Papieradresse:
https://arxiv.org/abs/2305.14019

Die Forschungsergebnisse zeigen, dassIm Vergleich zu herkömmlichen agilen Methoden kann ChipChat die Codemenge um das 5,32- bis 9,25-fache reduzieren. Im optimierten Bereichsmodus kann die Bereichsreduzierung von ChipGPT bis zu 47% erreichen, was mehr ist als beim ursprünglichen ChatGPT-Modell.

Darüber hinaus ist die KI-basierte Chipdesignoptimierung kein neues Konzept. Neben NVIDIA haben auch große Unternehmen wie Google Pläne geschmiedet. Im Jahr 2021 veröffentlichte das Google-Team ein Papier mit dem Titel „Eine Graphplatzierungsmethode für schnelles Chipdesign“, in dem eine Deep-Reinforcement-Learning-Lösung für die Chip-Layoutplanung vorgestellt wird. NVIDIA hat 2022 außerdem PrefixRL veröffentlicht, eine Methode zum Schaltungsdesign, die auf Deep Reinforcement Learning basiert.

Da ChipNeMo jedoch eine umfangreiche Entwicklung durchlaufen hat und ein maßgeschneidertes Modell ist, bietet es hinsichtlich Anwendungstauglichkeit und Effizienz mit Sicherheit mehr Vorteile. In dieser Ära des internen Wettbewerbs bei KI-Chips denkt Nvidia als der mit Abstand führende „König der Konkurrenz“ immer noch darüber nach, KI zur Verbesserung der Effizienz einzusetzen. Vielleicht spürt es auch den Druck der Anhänger?

Quellen:
https://blogs.nvidia.cn/2023/10/31/llm-semiconductors-chip-nemo
https://mp.weixin.qq.com/s/cRa-qAUTB2czlUcGb4YiDw
https://mp.weixin.qq.com/s/54BCR1wMoncvRYfaccNk3g