自分自身を転がしますか? NVIDIA、チップ設計に合わせてカスタマイズされた大型モデル ChipNeMo をリリース

特色图像

NVIDIA は、独自の内部データに基づいてトレーニングされた、カスタマイズされた大規模言語モデル ChipNeMo をリリースしました。これは、エンジニアがチップ設計に関連するタスクを完了するのに役立ちます。

この部屋で、黄仁勲さんは花柄のベストを着てハンカチを持って年次総会に出席した。そのコンパートメント、サム・アルトマン  新しいAIチップ企業を設立するために数十億ドルの資金が調達されています。

傲慢さと野心のコントラストは、現在の AI チップ分野を如実に反映しています。コンピューティング パワーが最優先される時代において、NVIDIA はほぼすべての人の首を握っています。そのため、ますます多くのAIチップ新興企業が雨後の筍のように出現しており、ベンチマークを取得してNvidiaに取って代わろうと主張する企業さえあります。同時に、MicrosoftやGoogleなどの大手メーカーも独自チップの開発を強化し始めています。熱心に。

確かに、スマート時代に入って以来、チップは多くのテクノロジー巨人にとって「アキレス腱」となっており、半導体業界の敷居の高さもこの技術的包囲を簡単に克服するのを困難にしている。ファーウェイがすでに「説明」している製造プロセスに加えて、半導体設計も非常に難しい。特に電子チップがムーアの法則の限界に近づき、コンピューティング能力の需要が高まり続けるにつれ、高度なプロセスでより高いパフォーマンスを実現する方法が AI チップ設計にとって重要な課題となっています。

144 SM を備えた GH100 フル GPU

上の図に示されているように、顕微鏡で見ると、NVIDIA H100 Tensor Core GPU のような高度なチップは、人間の髪の毛よりも 10,000 倍細い「通り」を持つ、数百億個のトランジスタで構成され、注意深く計画された都市のように見えます。一緒に。都市全体の建設には、完了までに 2 年間をかけて複数のエンジニアリング チームが協力する必要があります。

その中で、さまざまな部門が協力しており、チップの全体的なアーキテクチャを定義する部門、さまざまな超小型回路の設計とレイアウトを担当する部門、テストを担当する部門があります。それぞれの作業には特殊な方法、ソフトウェア プログラム、コンピューター言語が必要であり、その複雑さは明らかであり、これがまさにチップ メーカーの技術的な堀です。

興味深いのは、最も強力な AI チップを使用して大手メーカーの財布を空にしてきた Nvidia が、AI を使用してより「簡単に」お金を稼ぐことも考え始めていることです。少し前のことですが、NVIDIA は、独自の内部データに基づいてトレーニングされた、カスタマイズされた大規模言語モデル ChipNeMo をリリースしました。これはエンジニアがチップ設計に関連するタスクを完了するのに役立ちますが、現在は内部使用のみを目的としています。

この結果は arXiv の論文アドレスに含まれています。
https://arxiv.org/abs/2311.00176
公式アカウントをフォローし、バックグラウンドで「ChipNeMo」とリプライすると用紙をダウンロードできます。

ドメイン適応技術に基づいたチップ設計用のカスタマイズされた LLM

NVIDIA 研究者は、既存の LLM を直接展開することを選択せず、代わりに NVIDIA NeMo を使用して、ドメイン アダプテーション テクノロジに基づいて基本モデル (70 億パラメータ、130 億パラメータ、および 700 億パラメータ LLaMA2) をカスタマイズしました。
注: NVIDIA NeMo は、トレーニングおよび推論フレームワーク、ガードレール ツールキット、データ管理ツール、事前トレーニング済みモデルなどの生成 AI モデルを柔軟に構築、カスタマイズ、展開できるエンドツーエンドのクラウド ネイティブ フレームワークです。

ChipNeMo は、LLM をチップ設計分野に適応させるために、次のようなさまざまなドメイン適応技術を使用します。
* チップ設計データ用のカスタム トークナイザー * 大量のドメイン データを使用したドメイン適応型の継続的な事前トレーニング * ドメイン固有の命令による教師付き微調整) * ドメイン適応型検索モデル (ドメイン適応型検索モデル) の使用 * 検索拡張生成 (RAG) )

研究者らは、エンジニアリングアシスタントチャットボット、EDAスクリプト生成、障害概要と分析という3つの具体的なアプリケーションを通じて、ChipNeMoの実測と評価を実施しました。

ChipNeMoのトレーニングプロセス

その中で、ドメイン固有の単語セグメンターは、カスタマイズされたルールを通じて特定の用語のトークン化効率を向上させることができます。研究者らは、ChipNeMo の事前トレーニング済みトークナイザーを研究のチップ設計データセットに適合するように調整し、ドメイン固有の用語にのみ新しいタグを追加しました。

ドメイン アダプティブ プレトレーニング (DAPT) 中に、研究者は収集、クリーニング、フィルタリングを行った後、NVIDIA の内部チップ設計データを公開データ セットと組み合わせました。内部データ トレーニング コーパスには合計 231 億のトークンがあります。設計、検証、インフラストラクチャ、および関連する内部文書をカバーします。

ドメイン固有の命令による監視付き微調整の実行 (SFT)、研究者らは、公開されている一般的なチャット命令データセットを使用して複数ラウンドのチャットを実行し、それを少数のドメイン固有の命令データセットと組み合わせて、ChipNeMo基本モデル上でSFTを実行して、ChipNeMoチャットモデルを生成しました。

さらに、研究者は、 テバトロン  このフレームワークは、e5 の小規模な教師なしモデルを微調整して、研究のドメインに適応した検索モデルを作成するために、ドメイン固有の 3,000 個の自動生成サンプルを生成しました。

チャットボットによくある「錯覚」の問題を解決するには、研究者は、ドメイン固有の質問に対する回答の質を向上させるために、検索拡張生成 (RAG) を採用しています。

具体的には、RAG はデータベースから関連する文章を取得し、質問とともにプロンプトに含めることで、LLM がより事実に基づいたより正確な回答を生成できるようにします。同時に、研究者らは、適切な量のドメイン固有のトレーニング データを使用して、教師なしで事前トレーニングされた高密度検索モデルを微調整することで、検索精度を大幅に向上できることを発見しました。

RAG導入プロセス


さらに、ドメイン適応テクノロジは、大規模な言語モデルをチップ設計分野により適したものにするだけでなく、モデルパラメータを最大 5 分の 1 に削減して、推論コストを削減します。

言及する価値があるのは、すべてのモデルは 128 個の A100 GPU を使用してトレーニングされます。研究者らは、以下の表に示すように、ChipNeMo のフィールド適応型事前トレーニングにかかるコストを見積もりました。そのうち、DAPT は、基本モデルを最初から事前トレーニングする総コストの 1.5% 未満を占めます。

130億パラメータを備えたカスタマイズモデルはLLaMA2を超える

研究者らは、エンジニアリング アシスタント チャットボット、EDA スクリプト生成、バグの要約と分析という 3 つのチップ設計アプリケーションで ChipNeMo の実際のパフォーマンスを監視し、評価しました。

初め、エンジニアリング アシスタント チャットボットは、チップ設計エンジニアがアーキテクチャ、設計、検証などに関する質問に回答できるように支援し、間違った仮定に基づいてコードを作成したり、不慣れなコードをデバッグしたりすることを回避し、それによって生産性を向上させることができます。さらに、チャットボットは、社内の設計文書、コード、設計に関するその他の記録データ、および技術的なコミュニケーション追跡 (電子メール、社内インスタント メッセージングなど) から関連する知識を抽出し、エンジニアの作業効率を向上させることができます。

エンジニアリングアシスタントチャットボットの例

第二に、EDA スクリプトは産業用チップ設計プロセスの重要な部分です。以前は、エンジニアは内部スクリプト ライブラリを学習し、ツールのドキュメントを参照し、スクリプトをデバッグする必要があり、これには多くの時間がかかりました。したがって、研究者らは、自然言語タスクの記述から、Tool1 (Python) と Tool2 (TCL) に基づいて 2 つの異なるタイプのスクリプトを生成しました。エンジニアはモデルにクエリを実行し、同じインターフェイスで生成されたコードを実行すると同時に、実行可能なスクリプトを取得するためにさらに何回修正が必要かを確認することもできます。

LLM スクリプト ジェネレーターと EDA ツールの統合
EDA スクリプト ジェネレーターの例

三番目、バグの概要と分析のために、研究者らは NVIDIA の内部バグ データベース NVBugs を使用し、ドメイン固有の SFT データ セットも構築しました。

バグの概要と分析例

研究者らは、チップ設計の知識、EDAスクリプト、バグ分析、回路設計、およびMMLU(平均多言語理解)に基づいてChipNeMoのパフォーマンスの比較評価を実施しました。

結果は次のようになります。ChipNeMo のパフォーマンスはベース モデルのパラメータ サイズとともに向上し、ChipNeMo ドメイン適応型事前トレーニングによりベース モデルのパフォーマンスが大幅に向上します。同時に、最適な ChipNeMo モデルはすべてのベンチマークで GPT-3.5 を上回り、設計知識とバグ ベンチマークでは GPT-4 よりも優れています。

さらに、チップ設計タスクでは、わずか 130 億のパラメーターを備えたカスタム ChipNeMo モデルのパフォーマンスは、より大きな汎用大規模言語モデル (700 億のパラメーターを含む LLaMA2 など) のパフォーマンスと同等またはそれを超えています。

大きなモデルを使用してチップを設計することは何も新しいことではありません

現在、ChipNeMo は内部使用のみであり、Nvidia の内部データをトレーニングに使用するため、将来的にはオープンソース化されない可能性があります。それにもかかわらず、Nvidia はグラフィックス カードの巨人として、ワークフローを最適化するために大規模な言語モデルを使用しており、これは業界にとって非常に啓発的です。

一方では、チップ設計の敷居の高さは、技術的な障壁だけでなく、経験やコストの面でも反映されています。設計から実装、生産に至るすべての段階が、業界の競争における「追い越し点」になる可能性があります。大型モデルの追加により、後発で経験の浅い一部の新興企業は、より短期間で「他社の強みを学ぶ」ことができ、経験豊富なエンジニアを直接雇用することもできます。ただし、これには、より多くのオープンソース データとモデルのサポートが必要です。

一方で、チャットボットの形で大規模なモデルが世界を驚かせ続けている一方で、多くの企業は、自社の業界特性やビジネス特性に合わせた、オープンソース モデルに基づく大規模な言語モデルを開発したいと考えていますが、ほとんどの企業が断念しています。高いトレーニングコストを解決することが困難であると同時に、トレーニングデータのセキュリティの問題も考慮する必要があります。これは、NVIDIA によって再度確認されました。ChipNeMo のトレーニングに使用される 128 個の A100 GPU は、すべての企業が簡単に利用できるわけではありません。

実際、大型モデルがチップ分野に定着したのは ChipNeMo が初めてではないことは注目に値します。

早ければ2023年5月には、ニューヨーク大学タンドン工学部の研究者らはAIと「対話」し、人工知能によるマイクロプロセッサチップの設計を初めて実現した。

論文リンク:
https://arxiv.org/abs/2305.13243
公式アカウントをフォローし、バックグラウンドで「チップチャット」と返信すると用紙をダウンロードできます

ニューヨーク大学のハモンド・ピアース教授はインタビューで、「私はチップ設計の専門家では全くない。これが私が初めて設計したチップだ。それがこれが非常に印象的な理由の一つだと思う」と語った。 」

具体的には、研究者らは 124 回の会話を使用して GPT-4 を取得し、Skywater 130nm シャトルを介して製造された 8 ビット アキュムレータ マイクロプロセッサを設計することに成功しました。

この研究結果が発表された翌日、中国科学院計算技術研究所は、arXiv 上で ChipGPT をリリースしました。議論が再び始まりました。研究者らによると、ChipGPTは、自然言語チップ仕様を使用し、現在のLLMを使用してロジック設計を自動生成し、従来高度な専門知識と手作業を必要としていたハードウェアフロントエンド設計のコストを削減する実現可能性を探る試みであるという。

用紙のアドレス:
https://arxiv.org/abs/2305.14019

研究の結論は次のことを示しています従来のアジャイル手法と比較して、ChipChat はコード量を 5.32 ~ 9.25 倍削減できます。最適化エリア モードでは、ChipGPT のエリア削減は最大 47% に達し、元の ChatGPT モデルよりも大きくなります。

さらに、AI に基づいてチップ設計を最適化することは新しい概念ではありません。 NVIDIAのほか、Googleなどの大手メーカーも計画を立てている。 Google チームは 2021 年に論文「高速チップ設計のためのグラフ配置手法」を発表し、チップ レイアウト計画のための深層強化学習ソリューションを紹介しました。 NVIDIA はまた、深層強化学習に基づく回路設計手法である PrefixRL を 2022 年にリリースしました。

ただし、ChipNeMo は降水の経験があり、カスタマイズされたモデルであるため、アプリケーションの適合性と効率の点でより多くの利点があることは間違いありません。 AI チップが登場するこの時代において、NVIDIA は業界をリードする「チップ王」として、AI を活用して効率を向上させることを考えています。おそらく、追っ手からのプレッシャーを感じているのではないでしょうか。

参考文献:
https://blogs.nvidia.cn/2023/10/31/llm-semiconductors-chip-nemo
https://mp.weixin.qq.com/s/cRa-qAUTB2czlUcGb4YiDw
https://mp.weixin.qq.com/s/54BCR1wMoncvRYfaccNk3g