HyperAI

Nvidia a publié un modèle de langage personnalisé de grande taille, ChipNeMo, formé sur la base de ses propres données internes pour aider les ingénieurs à accomplir les tâches liées à la conception de puces.

Ici, Huang Renxun a assisté à la réunion annuelle portant un gilet fleuri et tenant un mouchoir. Là-bas,Sam Altman Des milliards sont levés pour créer de nouvelles entreprises de puces IA.

Le contraste entre la complaisance et l’ambition est la véritable représentation du domaine actuel des puces IA. À une époque où la puissance de calcul est primordiale, Nvidia étrangle presque tout le monde. C’est pourquoi de plus en plus de startups spécialisées dans les puces d’IA ont poussé comme des champignons après la pluie, et certaines prétendent même concurrencer et remplacer Nvidia. Dans le même temps, de grandes entreprises comme Microsoft et Google ont également commencé à développer leurs propres puces avec plus de diligence.

En effet, depuis l’avènement de l’ère intelligente, les puces sont devenues le « talon d’Achille » d’un certain nombre de géants de la technologie, et le seuil élevé de l’industrie des semi-conducteurs rend également ce siège technologique difficile à conquérir facilement. Outre le processus de production que Huawei a déjà « expliqué », la conception des semi-conducteurs est également extrêmement difficile. En particulier lorsque les puces électroniques approchent des limites de la loi de Moore et que les besoins en puissance de calcul continuent d'augmenter, la manière d'obtenir des performances supérieures sur des processus avancés est devenue un défi important dans la conception de puces d'IA.

Comme le montre la figure ci-dessus, au microscope, une puce avancée comme le GPU NVIDIA H100 Tensor Core ressemble à une ville soigneusement planifiée, composée de dizaines de milliards de transistors, reliés par des « rues » 10 000 fois plus fines qu'un cheveu humain. La construction de l’ensemble de la ville nécessite la collaboration de plusieurs équipes d’ingénieurs sur une période de deux ans.

Parmi eux, différents départements se répartissent le travail et coopèrent entre eux. Certains définissent l'architecture globale de la puce, certains sont responsables de la conception et de la disposition de divers circuits ultra-petits, et certains sont responsables des tests. Chaque tâche nécessite des méthodes, des logiciels et des langages informatiques spécialisés, ce qui montre la complexité. C’est précisément là que se situe le fossé technologique des fabricants de puces.

Ce qui est intéressant, c’est que Nvidia, qui a vidé les portefeuilles des grands fabricants avec ses puces d’IA les plus puissantes, a également commencé à réfléchir à l’utilisation de l’IA pour gagner de l’argent plus « facilement ». Il n'y a pas longtemps,NVIDIA a publié un modèle de langage personnalisé de grande taille, ChipNeMo, formé sur la base de ses propres données internes.Il peut aider les ingénieurs à accomplir des tâches liées à la conception de puces et est actuellement réservé à un usage interne.

Ce résultat a été inclus dans arXiv, adresse de l'article :
https://arxiv.org/abs/2311.00176
Suivez le compte officiel et répondez « ChipNeMo » pour télécharger le document

Personnalisation du LLM pour la conception de puces basée sur la technologie d'adaptation de domaine

Les chercheurs de NVIDIA n'ont pas choisi de déployer directement les LLM existants, mais ont plutôt personnalisé les modèles de base (LLaMA2 avec 7 milliards de paramètres, 13 milliards de paramètres et 70 milliards de paramètres) à l'aide de NVIDIA NeMo basé sur la technologie d'adaptation de domaine.
Remarque : NVIDIA NeMo est un framework cloud natif de bout en bout qui permet la création, la personnalisation et le déploiement flexibles de modèles d’IA génératifs, notamment des frameworks de formation et d’inférence, des boîtes à outils de protection, des outils de gestion des données et des modèles pré-entraînés.

ChipNeMo utilise une variété de techniques d'adaptation de domaine pour adapter les LLM au domaine de conception de puces, notamment :
* tokenizers personnalisés pour les données de conception de puces * pré-entraînement continu adaptatif au domaine utilisant de grandes quantités de données de domaine * réglage fin supervisé avec des instructions spécifiques au domaine * utilisation de modèles de récupération affinés * génération augmentée de récupération (RAG)

Les chercheurs ont mené des évaluations sur le terrain sur ChipNeMo en utilisant trois applications spécifiques : un chatbot assistant d'ingénierie, la génération de scripts EDA et le résumé et l'analyse des défauts.

Parmi eux, les segmenteurs de mots spécifiques à un domaine peuvent améliorer l'efficacité de la tokenisation de termes spécifiques en personnalisant les règles. Les chercheurs ont adapté le tokeniseur pré-entraîné de ChipNeMo à l’ensemble de données de conception de puces de l’étude, en ajoutant de nouvelles balises uniquement pour les termes spécifiques au domaine.

Au cours de la pré-formation adaptative au domaine (DAPT), les chercheurs ont combiné les données de conception de puces internes de NVIDIA avec des ensembles de données publics, les ont collectées, nettoyées et filtrées.Le corpus de formation des données internes contient un total de 23,1 milliards de jetons.Couvre la conception, la vérification, l'infrastructure et la documentation interne associée.

Lors de l'exécution d'un réglage fin supervisé avec des instructions spécifiques au domaine (SFT), les chercheurs ont utilisé un ensemble de données de commandes de chat général public pour effectuer plusieurs séries de chats et l'ont combiné avec une petite quantité d'ensembles de données de commandes spécifiques au domaine pour effectuer SFT sur le modèle de base ChipNeMo afin de générer le modèle de chat ChipNeMo.

De plus, les chercheurs ont utilisé Tevatron Le cadre génère 3 000 échantillons générés automatiquement et spécifiques au domaine et affine le petit modèle non supervisé e5 pour créer le modèle de récupération adapté au domaine de cette étude.

Afin de résoudre le problème courant d'« hallucination » de ChatBot,Les chercheurs ont utilisé la génération augmentée de récupération (RAG) pour améliorer la qualité des réponses aux questions spécifiques à un domaine.

Plus précisément, RAG récupère les passages pertinents de la base de données et les inclut dans l'invite avec la question, permettant ainsi à LLM de générer des réponses plus précises et davantage basées sur des faits. Dans le même temps, les chercheurs ont découvert que la précision de la récupération peut être considérablement améliorée en affinant le modèle de récupération dense pré-entraîné non supervisé à l’aide d’une quantité appropriée de données d’entraînement spécifiques au domaine.

De plus, en plus de rendre les grands modèles de langage plus adaptables au domaine de la conception de puces, la technologie d'adaptation de domaine peut également réduire les paramètres du modèle jusqu'à 5 fois, réduisant ainsi les coûts d'inférence.

Il convient de mentionner queTous les modèles ont été formés à l’aide de 128 GPU A100.Les chercheurs ont estimé le coût de la pré-formation adaptative au domaine pour ChipNeMo comme indiqué dans le tableau ci-dessous. Parmi eux, DAPT représente moins de 1,5% du coût total de la pré-formation du modèle de base à partir de zéro.

Un modèle personnalisé avec 13 milliards de paramètres surpasse LLaMA2

Les chercheurs ont surveillé et évalué les performances réelles de ChipNeMo dans trois applications de conception de puces : Engineering Assistant Chatbot, EDA Script Generation et Bug Summarization and Analysis.

d'abord,Le chatbot Engineering Assistant peut aider les ingénieurs concepteurs de puces à répondre à des questions sur l'architecture, la conception, la vérification, etc., les empêchant d'écrire du code basé sur des hypothèses incorrectes ou de déboguer du code inconnu, améliorant ainsi la productivité. De plus, Chatbot peut également extraire des connaissances pertinentes à partir de documents de conception internes, de codes, d'autres données enregistrées sur la conception et de traces de communication technique (e-mails, messagerie instantanée de l'entreprise, etc.) pour aider les ingénieurs à améliorer leur efficacité au travail.

Exemple de chatbot d'assistant d'ingénierie

Deuxièmement,Les scripts EDA constituent une partie importante du processus de conception de puces industrielles. Par le passé, les ingénieurs devaient apprendre les bibliothèques de scripts internes, consulter la documentation des outils et déboguer les scripts, ce qui prenait beaucoup de temps. Par conséquent, les chercheurs ont généré deux types de scripts différents basés sur Tool1 (Python) et Tool2 (TCL) à partir de la description de la tâche en langage naturel. Les ingénieurs peuvent interroger le modèle et exécuter le code généré dans la même interface, tout en voyant combien de corrections supplémentaires sont nécessaires pour obtenir un script exécutable.

Intégration du générateur de scripts LLM avec les outils EDA

troisième,Pour le résumé et l'analyse des bogues, les chercheurs ont utilisé la base de données de bogues interne de NVIDIA, NVBugs, et ont également créé un ensemble de données SFT spécifique au domaine.

Les chercheurs ont mené une évaluation comparative des performances de ChipNeMo en se basant sur les connaissances en matière de conception de puces, les scripts EDA, l'analyse des bogues, la conception des circuits et le MMLU (Mean Multi-Language Understanding).

Les résultats montrent queLes performances de ChipNeMo s'améliorent avec la taille des paramètres du modèle de base, et la pré-formation adaptative au domaine ChipNeMo offre des améliorations de performances significatives par rapport au modèle de base. Dans le même temps, le modèle ChipNeMo optimal surpasse GPT-3.5 sur tous les benchmarks et surpasse GPT-4 sur les benchmarks de connaissances de conception et de bugs.

De plus, dans la tâche de conception de puce,Le modèle ChipNeMo personnalisé avec seulement 13 milliards de paramètres correspond ou dépasse les performances des modèles de langage généraux plus grands (tels que LLaMA2, qui contient 70 milliards de paramètres).

Concevoir des puces avec de grands modèles n’a rien de nouveau

Actuellement, ChipNeMo est uniquement destiné à un usage interne et, comme il utilise les données internes de Nvidia pour la formation, il est peu probable qu'il soit open source à l'avenir. Néanmoins, en tant que géant des cartes graphiques, la démarche de NVIDIA visant à optimiser les flux de travail à l'aide de grands modèles de langage reste très inspirante pour l'industrie.

d'une part,Le seuil élevé de conception des puces ne se reflète pas seulement dans les barrières techniques, mais également dans l’expérience et le coût. Chaque étape, de la conception à la mise en œuvre, puis à la production, peut devenir un « point de dépassement » dans la concurrence industrielle. L'ajout de grands modèles permet à certaines startups qui ont démarré tard et qui n'ont pas suffisamment d'expérience d'« apprendre des forces des autres » dans un laps de temps plus court, et cela peut même être considéré comme l'embauche directe d'un ingénieur expérimenté. Cependant, cela nécessite davantage de données open source et de support de modèles.

d'autre part,Alors que les grands modèles continuent d'étonner le monde sous la forme de Chatbots, de nombreuses entreprises souhaitent développer de grands modèles linguistiques basés sur des modèles open source qui correspondent davantage aux caractéristiques de leur propre secteur et à leurs attributs commerciaux. Cependant, la plupart d’entre eux ont reculé car il est difficile de résoudre le problème des coûts élevés de formation. Dans le même temps, ils doivent également prendre en compte la sécurité des données de formation. Ceci est également confirmé par NVIDIA. Les 128 GPU A100 utilisés pour former ChipNeMo ne sont pas facilement disponibles pour toutes les entreprises.

Il convient de noter que ChipNeMo n’est pas la première fois que de grands modèles sont utilisés dans le domaine des puces.

Dès mai 2023,Des chercheurs de la Tandon School of Engineering de l'Université de New York ont réussi pour la première fois à utiliser l'intelligence artificielle pour concevoir une puce de microprocesseur en « parlant » à l'IA.

Lien vers l'article :
https://arxiv.org/abs/2305.13243
Suivez le compte officiel et répondez « Chip-Chat » pour télécharger le document

« Je ne suis pas du tout un expert en conception de puces », a déclaré Hammond Pearce, professeur à l’Université de New York, dans une interview. « C'est la première puce que j'ai conçue. Je pense que c'est l'une des raisons pour lesquelles elle est si impressionnante. »

Plus précisément, les chercheurs ont utilisé avec succès GPT-4 pour concevoir un microprocesseur accumulateur 8 bits via 124 conversations, qui a été fabriqué via la navette Skywater 130 nm.

Le lendemain de la publication de la recherche,L'Institut de technologie informatique de l'Académie chinoise des sciences a publié ChipGPT sur arXiv.La discussion a de nouveau été vivement relancée. Les chercheurs ont déclaré que ChipGPT est une tentative d'explorer la faisabilité de la génération automatique de conceptions logiques à l'aide de spécifications de puces en langage naturel et d'exploiter les LLM actuels pour réduire le coût de la conception frontale du matériel, qui nécessite traditionnellement un degré élevé d'expertise et de travail manuel.

Adresse du document :
https://arxiv.org/abs/2305.14019

Les conclusions de la recherche montrent quePar rapport aux méthodes agiles traditionnelles, ChipChat peut réduire la quantité de code de 5,32 à 9,25 fois. En mode zone optimisée, la réduction de zone de ChipGPT peut atteindre jusqu'à 47%, ce qui est plus que le modèle ChatGPT d'origine.

De plus, l’optimisation de la conception des puces basée sur l’IA n’est pas un concept nouveau. Outre NVIDIA, de grandes entreprises comme Google ont également élaboré des plans. En 2021, l'équipe Google a publié un article intitulé « Une méthodologie de placement de graphes pour une conception rapide de puces », présentant une solution d'apprentissage par renforcement profond pour la planification de la disposition des puces. NVIDIA a également publié PrefixRL, une méthode de conception de circuits basée sur l'apprentissage par renforcement profond en 2022.

Cependant, ChipNeMo a connu beaucoup de développement et est un modèle personnalisé, il est donc forcément plus avantageux en termes d'adaptation et d'efficacité des applications. À l'ère de la concurrence interne dans le domaine des puces d'IA, Nvidia, en tant que « roi de la concurrence » de premier plan, réfléchit toujours à l'utilisation de l'IA pour améliorer son efficacité. Peut-être ressent-il aussi la pression des fans ?

Références :
https://blogs.nvidia.cn/2023/10/31/llm-semiconductors-chip-nemo
https://mp.weixin.qq.com/s/cRa-qAUTB2czlUcGb4YiDw
https://mp.weixin.qq.com/s/54BCR1wMoncvRYfaccNk3g

Enroulez-vous ? Nvidia Lance Un Grand Modèle ChipNeMo, Personnalisé Pour La Conception De Puces

Personnalisation du LLM pour la conception de puces basée sur la technologie d'adaptation de domaine

Un modèle personnalisé avec 13 milliards de paramètres surpasse LLaMA2

Concevoir des puces avec de grands modèles n’a rien de nouveau