著者: Sanyang、Li Baozhu、Li Weidong、Yudi、xixi
編集者:李宝珠
ビッグモデル時代の波の中で、機械学習システムは前例のない変化を遂げています。モデルサイズの急速な拡大により、AI の機能は大幅に向上しましたが、この向上はさまざまな分野に新たな機会をもたらすだけでなく、一連の新たな技術的課題や実際的な問題も引き起こします。
12月16日、2023 Meet TVM・忘年会が上海起業家公共訓練基地で盛況のうちに開催されました。今回のミートアップでは、Apache TVM PMCで上海交通大学博士のFeng Siyuan氏がホストを務め、「ラージモデル時代の機械学習システム」をテーマに4人のゲストと包括的かつ多角的な交流とディスカッションを実施した。
この座談会のゲストは以下の4名です。
* ワン・チェンハン、OpenBayes 創設者兼 CEO
* Wu Zhao 氏、NIO 自動運転 AI エンジン責任者
*Jin Lesheng、OctoML 機械学習システム エンジニア
* Zhu Honyu、ByteDance 機械学習システム エンジニア
左から右へ:Feng Siyuan、Wang Chenhan、Wu Zhao、Jin Lesheng、Zhu Honyu
当初の趣旨を逸脱することなく、この対談を以下のように要約させていただきましたので、ぜひゲストの皆様の素晴らしい洞察をお聞きください。
現段階では、大規模モデルは、クラウド、デバイス、車両 (Tesla FSD V12) のいずれであっても、さまざまな分野で絶対的なホットな問題であり、すべてのゲストが実際の作業や最適化に関するディスカッションで大規模モデルのトレーニングとデプロイに関連するシステムに遭遇することになります。現在直面している主な課題と解決策を順番に紹介してください。
ワン・チェンハン:OpenBayes Bayesian Computing は、今年 6 月に大規模モデルに関連する単一モダリティ トレーニングを開始しました。 スーパークルー 国内大型モデルベンチャー企業ランキングでは5位にランクイン。大規模モデルのトレーニング テクノロジの観点から見ると、現在誰もが直面している中心的な問題は、基本的に、独自のクラスター上で全負荷で実行できるチップはありません。
によると OpenAI 公式 Web サイトの「Kubernetes を 2500 ノードにスケールする」計算によると、GPT-3 をトレーニングするときのピーク GPU 使用率は 18% を超えてはならず、平均使用率は約 12 ~ 15% であり、これは、わずか 1,200 万~1,500 万元の投資で効果が得られました。財務的な観点から見ると、データ並列処理、パイプライン操作、ベクトル並列処理をどのように最大化するかが、実際にトレーニングで直面する最大の課題です。
中国での展開/推論の課題は主にエンジニアリング上の問題の複雑さによるものです。メモリ帯域幅があまり良くない場合、PCIE の最適化は実際にはより困難になります。 OpenBayes ベイジアン コンピューティングと多くの上流および下流メーカーは vLLM を使用しており、これによりエンジニアリング作業が大幅に節約され、推論の作業負荷が大幅に軽減されます。
ジン・レーシェン:私たちが直面した課題は主に次の 2 点に分けられます。
1. TVM および MLC-LLM が 7B を超える速度で実行されると、70B などのより大きなモデルを 1 枚のカードに保存できない場合があるためです。私たちは、この問題を解決するために Tensor Parallelism を使用しようとしました。このソリューションは現在オープンソースです。興味がある方は試してみてください。
2. 別のニーズがあります。現在、バッチ サイズ = 1 の場合のみサポートされています。一人のユーザーには適していますが、サービスを考えると、vLLM よりもはるかに劣っていることがわかります。現在、これも開発中です。
フォン・シーユアン:また、推論の主な傾向はまだ明らかではありませんが、Transformer は現在大規模モデルで採用されている主流のアーキテクチャですが、この場合、Transformer は大規模なモデルを統合できるかどうか、その手法にはまだ多くの変更が加えられています。モデル?モデルはまだ疑問符です。したがって、上位層と下位層の間に不確実性があるシナリオでは、従来の TVM エンドツーエンドのコンパイルよりもカスタマイズ可能で機敏な開発の方が重要になる可能性があります。私の意見では、大規模モデルの推論とトレーニングにはまだ改善の余地がたくさんあります。
米国の禁止措置が強化されるにつれ、制限は当初のトレーニング カードの禁止から、大規模モデルの推論カードに影響を与えるものに移行しました。短期的には、現時点で大規模モデルのクラウド推論にとって最もコスト効率の高いソリューションは何でしょうか? (ゲームカード、グラフィックスカードが使用可能な場合)、国内生産 NPU , GPUが推論の分野のギャップを埋めるにはどれくらいの時間がかかりますか?
ワン・チェンハン:トレーニングモデルと推論モデルは規模、利用シナリオ、業務負荷が異なるため、統一した答えを得るのは困難です。
エッジ選択の観点からは、国産チップ Rockchip 3588 が良い選択肢となります。技術スタックは比較的汎用的で、価格も比較的安く、入手も容易です。さらに、NVIDIA Orin は、Ampere GPU の去勢版に相当します。q4f 16 の予算仕様に従っている場合、Orin は、グラフィックス メモリから推論まで、あまり負担をかけずに 7B、14B、さらには 34B のモデルを実行できます。
クラウドの選択に関して、NVIDIA はその後、H20、L20、L2 の 3 つのモデルを明らかにしました。NVIDIA の公式情報によると、実際の大型モデルの推論レベルはおそらく L40 の 70% ~ 80% ですが、後に A6000 が禁止リストに追加されました。 、ただし在庫が比較的多いため。 A6000 の利点は、大容量のビデオ メモリ、48 GB、および NVLink を備えていることです。130% A100 をペアでインストールできます。
国内チップメーカーとの接触に基づいて、誰もがアテンションのために単一のバックボーンを実際に最適化していることを私たちは知っています。
国産チップの分野で、企業が推論側を実際に実装し、Nvidia の市場シェアを切り開くまでにどれくらいの時間がかかると思いますか?
ワン・チェンハン:国内のチップ企業はおそらく、18か月以内にNvidiaの20%以上の市場シェアを食いつぶすことができると思います。この判断の主な根拠は、我が国の優遇政策と米国の継続的な制裁が現地化率の上昇を促進したということである。また、私の知る限り、国内メーカーではすでに92%以降までのNVIDIA CUDA命令やAPIに対応しているメーカーがあります。したがって、私は 18 か月周期の予測に今でも非常に自信を持っています。
ウェイライはなぜ TVM を選んだのですか? TVM は自動運転の分野においてどのような利点がありますか?
呉趙:まず、私は TVM の技術的なバックグラウンドを持っているため、チームを構築するときは TVM を優先します。第二に、実際のプロジェクトでは、そのテクノロジーが合理的かどうかを検討するための重要な基準は、そのアーキテクチャがビジネス ニーズを満たせるかどうかです。
自動運転は非常に複雑なアプリケーション シナリオであり、アーキテクチャの要件もより厳しくなります。技術的なルートを選択する場合は、プロジェクトの要件とプロジェクト サイクルを総合的に考慮する必要があります。NIO の自動運転ビジネスでは、最初のモデル ET7 が 2022 年 3 月に納入される予定です。当時、私たちのチームは自動運転の複雑なモデルに取り組む時間が半年しかなかったので、エンドツーエンドのソリューションを選択する必要がありました。当時の友人の多くは TensorRT を使用していました。 TensorRT の問題は、モデルがますます複雑になり、要件がますます奇妙になり、長期的には適さなくなることです。
自動運転の分野で考慮すべき最初の課題は、車両側でパフォーマンス、精度、その他の指標を完全に制御する方法です。自動運転では多くの特殊な状況を解決する必要があるため、アルゴリズム チームは主にクラウドでモデルのトレーニングを行ってから、それを車両に展開します。このプロセスにおいて、TensorRT ブラック ボックスを使用すると、その量子化アルゴリズムを実際に完全に把握することはできず、量子化は非常に重要であると私たちは考えています。
さらに、MLIR は従来のコンパイラに非常に適していますが、当時は比較的厳しい時間制限があり、エンドツーエンドのソリューションを選択する必要があったことを考慮すると、初期段階では多くの時間がかかりました。 MLIRの評価後。
やっと、自動運転では、展開全体の安定性と CPU 使用率の低さが重要です。したがって、CPU 使用率を削減できる完全に制御可能なソリューションを選択する必要がありますが、ブラック ボックスでは実現できません。
まとめると、当時の私たちにとって、オールホワイトボックスのTVMは最適な選択肢でした。
現時点では、大型モデルであっても自動運転モデルであっても、モデルとハードウェアは相互に結びついており、この場合、教師はモデルのアルゴリズム、システム、さらにはチップも一緒に進化することになります。これについて。
ワン・チェンハン:DSA と GPGPU は相互依存する可能性が高く、将来的にはどちらも他方なしでは成り立たないと思います。 最近、Mistral 7B MoE や Microsoft のなど、多くの新しいテクノロジーや製品がコミュニティで生まれています。 レットネット 、マルチモダリティの台頭など、大規模な言語モデルによるアーキテクチャ全体の統合は、今年の 3 月から 10 月までの一時的な幻想にすぎない可能性があります。AI の将来のアーキテクチャとパラダイムは、によって定義される可能性があります。 NVIDIAはしばらく継続します。しかし、NVIDIA がこの問題で常に先を行くことができるとは限りません。Attention が他の追撃者と NVIDIA との距離を縮めることは間違いありません。たとえば、AMD MI300X や、名前を公にするのが不便なその他の国産チップなどです。
さらに傾向を見てみると、GPGPU を中心としたアーキテクチャの進化は、今後も長期的な傾向となるでしょう。
呉趙:実際のプロジェクトの経験では、小さな変更は可能ですが、大きな変更は困難です。つまり、基本的にビジネスニーズを満たすことを前提として、ハードウェアの微調整や適応が可能です。ただし、良い結果を達成するために Transformer を使用する必要があるが、特定のハードウェアでの Transformer のサポートが非常に不十分な場合は、ビジネスの観点から、そのハードウェアには Transformer を導入しません。これが業界の現状です。
課題といえば、先ほども挙げた課題も含めて、必ず課題はあると思います wxya または RNN は、もはや Attendance の 2 次複雑さではなく、1 次複雑さです。ここにも問題があります。この課題を成功させるには、これだけでは十分ではありません。この場合、RWKV のエコロジーと効果は、限られたシナリオでの効果要件を満たすために何らかの圧縮または他の手段を使用することができます。 Transformer と同様に優れているため、ユーザーが Transformer を放棄して RWKV を使用する理由はありません。
したがって、私の意見では、アルゴリズムは最も重要な原動力です。アルゴリズムの効果が得られるのであれば、コストパフォーマンスを考慮して他のシステムチップも検討するかもしれません。
ジン・レーシェン:私の考えはウー先生と非常によく似ています。私は以前に機械学習を行ったことがあり、AI に関するいくつかの論文を発表しましたが、ML を行う人は遅延やシステム関連の指標にほとんど注意を払っていないことがわかりました。 SOTA に達するかどうか。したがって、Transformer を完全に超える性能を備えた新しいモデルが登場すれば、間違いなくそれが主流になり、すべてのハードウェア メーカーとソフトウェア スタックが適応するため、依然としてアルゴリズムが主流になると思います。
ワン・チェンハン:以前に RWKV を推定したことがありますが、パラメータのスケールが比較的大きい場合、その学習コストは約 1/3 に削減される可能性があります。たとえば、大規模な機械学習モデルを構築する場合、誰もが通信ツールと通信に依存しますが、指数関数レベルから線形レベルに低下すると、その通信要件は減少します。
アテンションの仕組みが注目され始めたのは2017年からですが、世界中の機械学習関連論文をクローリングして分析したところ、2022年だけで論文数が過去数年の合計を上回っていることが分かりました。
GPT-3、さらには ChatGPT がこのマイルストーンであることは疑いの余地がありません。ViT が誕生する前でさえ、Attention が視覚的なタスクに使用できると信じている人はほとんどいませんでした。モデル構造には、その有効性を証明するために常にイベントが必要であることを理解しています。パラメーターのスケールが巨大で効果的であるか、特定の種類のタスクではメカニズムが SOTA であるかのいずれかです。 RWKV を振り返ってみると、RWKV がまだ Attend を超える可能性を示せていないのは、おそらく投資予算に大きな差があるためです。RWKV の可能性は証明されていません。
現状では、RWKV と Microsoft の RetNet がその可能性を秘めていると思われます。
将来的には、大規模モデルの展開は主にクライアント側で行われるのでしょうか、それともクラウド上で行われるのでしょうか?
呉趙:今後 3 ~ 5 年はエンドサイドの製品が主流になると思います。 まず、大型モデルの製品形態が Chat に独占されることは間違いありません。将来的には、間違いなく垂直型の大型モデルが多くなります。たとえば、自動運転車、携帯電話、マイクロロボットなどはすべて端末デバイスであり、この種の Infer の需要と計算量は膨大です。これほど多くをサポートするクラウドは存在しそうにありません。シナリオとデバイス。同時に、自動運転など遅延に非常に敏感なアプリケーションの場合、エンドツークラウドの遅延も考慮する必要がある要素です。
ワン・チェンハン:大規模なモデルをクラウドにデプロイするには、私たちが考えているよりも時間がかかる場合があります。以前は基本的に1~2年後にはクラウドが主体となり、5年程度でデバイス側に移行すると誰もが考えていました。私自身の判断では、3 ~ 4 年でクラウドになり、5 ~ 8 年でテストが終了するでしょう。
GPT-3.5 (20B) を例に挙げると、第 4 四半期 FP16 では約 10 GB 以上の容量があります。消費電力は別として、携帯電話にモデルを保存するために 10 GB 以上を使用することは、現在では誰もが受け入れられるものではありません。また、チップの製造プロセス開発のスピードも鈍化しており、チップアーキテクチャも過去20年ほどのスピードで進歩することはないので、すぐにクラウドモデルがデバイス側に分散できるとは思えません。
フォン・シーユアン:近いTransformer の開発への期待に関しては、私も Chenhan 氏の意見に同意します。5 年以内にクラウドから完全に脱却することは基本的に不可能です。しかし、新しいモデルが出れば、計算能力の問題の一部が解決されるかもしれない。携帯電話に大規模なモデルを展開したい場合、実際には演算能力が不足することはありません。Android スマートフォンを例にとると、35 T のマトリックス ユニットが搭載されていますが、このマトリックス ユニットは単一のバッチであるため、大規模なモデルを推論する場合にはまったく使用されません。終了テストの推論問題を解決できるモデルがあれば、そのモデルがリリースされてから半年以内に解決される可能性が高いですが、そのモデルがいつリリースされるかについては、結論を出すのは簡単ではありません。
モデル、特にデバイス側の制作方法は、クラウド上で展開されるモデルとはまったく異なります。たとえば、Qualcomm や Apple などのメーカーは、携帯電話への展開に特化したモデルを設計する必要があります。またはデバイス側で。モデルに効果を持たせたい場合は、トランスフォーマーを超える必要はありません。トランスフォーマーに近づくだけです。これは、それぞれのケースに適したものです。これは、トランスフォーマーの設計、トレーニング、およびタスクの違いに関連している必要があります。モデル。
呉趙:現在の主流のアプローチは、クラウドで大規模なモデルを導出し、その後、小規模なモデルを抽出することです。実用的な観点から、いくつかの垂直アプリケーションのビジネス開発をサポートする方法についてさらに検討します。垂直シナリオでは、パラメータの数は 1 ~ 3B である可能性があります。十分。
ワン・チェンハン:今日はアーキテクチャとバックボーンについて説明しましたが、データスケールについては考慮していませんでした。シャノン上級の情報学の原則に基づくと、特定のマトリックスの下では、伝送されるデータの量は制限されており、より効率的な圧縮方法は必然的に損失をもたらします。したがって、一定のパフォーマンスが必要な場合、このパフォーマンスが GPT-3.5 に基づいていると仮定すると、先ほど 10 GB 以上と述べましたが、より効率的なバックボーンが登場したとしても、それは 7 GB を下回らないと信じなければなりません。このレベルのモデルに対応するには、デバイスのストレージを拡張できますが、その計算量は小さくなくなります。
プロセスの反復速度が遅くなっていると前述しました。おそらくあと 5 ~ 10 年後には、単一サイズのチップから絞り出せるパフォーマンスは過去 3 年ほどで劣る可能性があります。これは現在明らかな事実です。
2023 年の第 1 四半期から第 4 四半期にかけて、上海、北京、深センで 4 回のオフライン ミートアップを成功裏に開催することができました。さまざまな都市で AI コンパイラーに関心を持つエンジニアを集め、誰もが学び、コミュニケーションできるプラットフォームを提供できることを非常に嬉しく思います。 。 2024年も引き続きTVMシティマップの開発を進めてまいりますので、講師の推薦や会場の提供、コーヒーブレイクの提供など、あらゆる企業やコミュニティパートナーの皆様の共創への参加を心よりお待ちしております。
一緒に中国で最も活発な AI コンパイラ コミュニティを作りましょう!
ゲストの素晴らしいスピーチをまだ見ていない方は、クリックしてください。イベントレビュー(前編)2023 Meet TVMシリーズイベント無事終了録画全体をご覧ください~
WeChat公開アカウント「HyperAI Super Neural」をフォローし、背景にあるキーワード「TVM忘年会」に返信すると、ゲストの完全なPPTを取得できます。
「TVM忘年会」に注目して、QRコードをスキャンしてイベントグループに参加し、最新のイベント情報を入手することもできます~
このイベントの主催者として、MLC.AI コミュニティは 2022 年 6 月に設立されました。Apache TVM の主な発明者であり、機械学習の分野で有名な若い学者である Chen Tianqi がチームを率いて、MLC オンライン コースを立ち上げ、体系的に機械学習を導入しました。コンパイルの主要な要素と中心となる概念。
2022 年 11 月、MLC.AI コミュニティ ボランティアの共同の努力により、最初の完全な TVM 中国語ドキュメントがオンラインで公開され、HyperAI Super Neural 公式 Web サイトで正常にホストされました。これにより、機械学習のコンパイルに関心のある国内開発者にさらに多くの情報を提供できるようになりました。新しいテクノロジーの基礎、つまりドキュメントを学びます。
MLC オンライン コース:https://mlc.ai/TVM 中国語ドキュメント:https://tvm.hyper.ai/
HyperAI は、国内をリードする人工知能およびハイパフォーマンス コンピューティング コミュニティであり、データ サイエンス分野の高品質な公共リソースを国内の開発者に提供することに尽力しています。これまでのところ、1,200以上の公開データセットの国内ダウンロードノードを提供し、人工知能とハイパフォーマンスコンピューティングに関連する300以上のエントリクエリをサポートし、大規模モデルを含む数千のオンラインデータベースを含む数百の業界エントリとケースを含めてきました。公開データ セットとチュートリアル、および完全な TVM 中国語ドキュメントをホストします。
公式ウェブサイトにアクセスしてください:https://hyper.ai/
OpenBayes は中国の大手ハイパフォーマンス コンピューティング サービス プロバイダーです古典的なソフトウェア エコロジーと機械学習モデルを新世代の異種チップに移植することにより、産業界や大学の科学研究向けに、より高速で使いやすいデータ サイエンス コンピューティング製品を提供します。その製品は、数十の大規模産業で使用されています。シナリオまたは大手科学研究会社によって使用されます。
公式ウェブサイトにアクセスしてください:https://openbayes.com/
センチメートル空間(アモイ)は中国商人グループ同社の専門イノベーションパーク管理会社は、厦門で専門インキュベーター「CM Space」を運営しています。南東海岸に根ざし、交通、総合的な都市および公園開発、金融というチャイナ・マーチャンツ・グループの3つの主要なビジネス上の利点に依存し、人工知能分野の起業家企業に最も緊急に必要とされるアプリケーションシナリオ、モデル検証、シード段階の顧客と開発の初期段階でのその他のリソースのサポートにより、人工知能企業が効率的に育成できるように支援します。
優れた海雲基地(Shanghai Cloud Computing Innovation Base、Shanghai Big Data Innovation Base) は、中国でいち早く設立され、クラウド コンピューティング業界の発展を 0 から 1 へ推進する国家レベルのプロフェッショナル インキュベーターです。ファンド+ベース+プラットフォームモデルに基づいて、デジタルエコノミー産業を核として、クラウドコンピューティング、クラウドネイティブ、ビッグデータと人工知能、デジタルヘルスなどの部門に焦点を当て、1000近くの優れた企業を集めて育成しています。国内外で。テクノロジー、ユーザー、資本、サービスの4つのエコシステムを結び付け、デジタルエコノミーを構築する「シナリオイノベーションラボ」と「デジタルエコノミー上場準備キャンプ」を継続的に開催しています。産業アクセラレーター。
Guixin Valley - グローバル企業向けの国境を越えたワンストップサービスプラットフォームは、起業家育成拠点、Guixin Valley の人材、Guixin Valley の企業サービス、Guixin Valley の文化コミュニケーション、などが主なコンテンツとなります。北米、欧州、アジア等の海外シンクタンクと市場リソースを結び、工業団地・インキュベーション拠点運営、起業家育成研修、企業コンサルティングサービス、投融資、海外人材育成、グローバルイノベーション・起業家精神などのサービスを提供しています。中国の起業家企業の海外進出も支援する。 Guixin Valleyは、才能の発見、才能の育成と才能の実現、優秀な若者の夢の実現を支援すること、帰国者の起業と才能の育成のための帰還の場所を形成することを目的としています。