イベントレビュー | AMD/Muxi Integrated Circuit/ByteDance/北京大学ハードウェア全体にわたる統合コンパイルエコシステムの詳細な分析

1年前

ビッグモデルの時代を迎え、コンパイラが再び脚光を浴びています。7月5日、HyperAIは北京中関村で第7回Meet AI Compiler Technology Salonを開催し、分散通信、国産GPUコンパイルスタック、新しいプログラミング言語の設計、オープンソースエコシステムの構築に焦点を当てました。AMD、Muxi Integrated Circuits、ByteDance、北京大学などのAIコンパイラのベテラン専門家が招かれ、それぞれの技術パスにおける「実際に実行され、成果を上げている」プロジェクトの主要メカニズムと実装の詳細を体系的に発表しました。

WeChatパブリックアカウント「HyperAI Super Neuro」をフォローし、キーワード「0705 AI Compiler」に返信すると、認定講師の講演PPTを入手できます。

ラウンドテーブルセッションでは、上海創志学院助教授兼Apache TVM PMCの馮思源氏がモデレーターを務め、「ハードウェアを横断した統合コンパイルエコシステム」というテーマに焦点を当て、4人の講師と共に、異なるハードウェアプラットフォーム間の連携と課題について深く議論しました。

このイベントは、講演者によるステージ上の「知識のアウトプット」だけでなく、コミュニティパートナーとの交流も同様に刺激的でした。技術的な詳細に関する深い質問、ソリューション選定に関する長時間の議論、休憩時間中の自由な意見交換など、参加者はそれぞれが経験と洞察を惜しみなく共有し、直面した実践的な問題について温かく誠実な会話を交わしました。こうした「双方向」の雰囲気は、私たちの技術コミュニティをより温かくしてくれるでしょう。この技術サロンは、素晴らしい幕を閉じました。

活動内容のレビュー

以下、共有内容と実際の共有記事の簡単な紹介です。

トピックを共有:オープンソースコミュニティを支援し、AMD Tritonコンパイラを分析します

内容紹介：TritonはOpenAIが提案したプログラミング言語で、高性能GPUカーネルの開発を簡素化するように設計されています。主流のLLM推論学習フレームワークで広く利用されています。ユーザーは、基盤となるGPUアーキテクチャの詳細を気にすることなく、Python Tritonコードを開発することでGPUカーネルを実装できるため、GPUコード開発の難易度が大幅に軽減されます。

AMD は、関連する GPU プラットフォームに Triton コンパイラを実装し、Triton オープンソースコミュニティに提供しました。GPUコードのパフォーマンスを最適化するには、Tritonコンパイラとカーネルパフォーマンス最適化におけるその役割を理解する必要があります。この共有では、AMD Tritonコンパイラについて詳しく説明し、AMD GPUプラットフォーム上でTritonのパフォーマンスを向上させるコンパイラの仕組みを紹介します。

この共有を見ると、次のことが理解できるでしょう。

1. AMD GPUアーキテクチャの概要

2. AMD GPUのTritonオープンソースコミュニティにおける最新の取り組み

完全な共有記録を表示するにはクリックしてください:

AMD AIアーキテクト張寧氏：AMD Tritonコンパイラを多角的に分析し、オープンソースエコシステムの構築を支援する

トピックを共有:Muxi GPUでのTVMアプリケーションの実践

内容紹介：この議論は主に、Muxi GPU に TVM を適用する方法に焦点を当てています。Muxi GPU では、TVM をベースとした主流の AI フレームワークを実現するために、TVM を中心に高性能な演算子が生成されます。

この共有を見ると、次のことが理解できるでしょう。

1. TVMを国内GPGPUに適応させる際に遭遇する可能性のある問題

2. 国内の GPGPU における TVM の利点は何ですか? また、どのような点にさらなる進歩が必要ですか?

3. 国内GPGPUにおけるTVMなどのAIコンパイラのサポート状況について、また関連するエコシステムの拡大方法について議論する。

完全な共有記録を表示するにはクリックしてください:

建築的特徴からエコシステム構築まで、Muxi Dong Zhaohuaは国産GPUにおけるTVMの応用実践を深く分析する

トピックを共有:Triton分散: 高性能通信のためのネイティブPythonプログラミング

内容紹介：単一チップの規模は徐々にボトルネックに達しつつあります。単一のアクセラレータでは、大規模な言語モデルの学習と推論をサポートできません。分散システムはもはや固定的な要件となっています。分散システムでは、コンピューティング、メモリアクセス、通信が並行して実行されますが、既存のフレームワークは大部分が個別に最適化されているため、クラスタ性能を協調的に発揮することが困難です。

本レポートでは、分散 AI ワークロードのネイティブなオーバーラップ最適化を提唱し、マルチフレームワークの最適化を網羅した初の Triton-distributed (Triton コンパイラ拡張) を提案します。OpenSHMEM 通信プリミティブを統合し、コンパイラを使用して 3 つのアクティビティの共同最適化を実現し、オーバーラップテクノロジとシングル/マルチノードプログラミングメソッドの適用を実証することで、生成されたコードはクラスター環境内の異種リソースを最大限に活用し、手動で最適化されたコードよりも優れたパフォーマンスを発揮し、開発コストは CUDA/C++ よりも大幅に低くなります。

この共有を見ると、次のことが理解できるでしょう。

1. トリトンが配信する最新技術

2. Pythonによる通信プログラミングの課題

3. 分散コンパイルの将来方向

完全な共有記録を表示するにはクリックしてください:

トレーニングパフォーマンスが大幅に向上しました。BytedanceのZheng Size氏が、大規模モデルのための効率的な分散通信とコンピューティング統合を実現するTriton分散フレームワークについて説明します。

トピックを共有:TileLang: オペレーターの開発はもはや「頭を悩ませる」ものではなく、パフォーマンスは依然としてオンラインです

内容紹介：今回は、新しいオペレータプログラミング言語である TileLang を紹介します。明示的なタイルレベルのプリミティブと自動推論メカニズムにより、開発者はハードウェア対応のニューラルオペレーターを効率的に実装し、制御と開発の効率をバランスさせることができます。

この共有を見ると、次のことが理解できるでしょう。

1. よりシンプルで効率的な高性能オペレータ開発言語を習得する

2. TileLangのコアとなる設計コンセプトと技術的な利点を理解する

完全な共有記録を表示するにはクリックしてください:

タイルレベルのプリミティブは自動推論メカニズムと統合されています。TileAIコミュニティの創始者は、TileLangのコアテクノロジーと利点を深く分析しています。

2025 AI コンパイラーのご紹介 · ご期待ください

2023年から2025年にかけて、北京、上海、深圳で7回のオフラインミートアップを成功裏に開催し、数千人のベテラン実務家や愛好家を集め、豊かなコミュニティエコシステムを着実に構築してきました。2025年には、AIコンパイラ都市マップの開発を継続し、企業やコミュニティパートナーの皆様に、講師の推薦、会場やコーヒーブレイクの提供など、様々な形での共創へのご参加を心よりお待ちしております。どうぞよろしくお願いいたします。

中国で最も活発なAIコンパイラコミュニティを一緒に作りましょう！最後に、現場の集合写真を共有しましょう❤️

スポンサーとパートナー

HyperAI (hyper.ai) は、国際的にリードする人工知能と高性能コンピューティングのコミュニティとして、業界情報レポート、データセットの高速ダウンロード、オンラインチュートリアルのデモンストレーション、人気モデルのパフォーマンス評価、最先端の論文推奨、価値の高い結果の解釈、トップカンファレンスカレンダーの統合など、一連のサービスを提供することで、世界のデータサイエンスと人工知能業界の開発者と愛好家が学び、理解し、実践できるように支援し、コミュニティと共に人工知能の未来を築くことを目指しています。

公式ウェブサイトにアクセスしてください:https://hyper.ai/

OpenBayes は中国の大手ハイパフォーマンスコンピューティングサービスプロバイダーです古典的なソフトウェアエコロジーと機械学習モデルを新世代の異種チップに移植することにより、産業界や大学の科学研究向けに、より高速で使いやすいデータサイエンスコンピューティング製品を提供します。その製品は、数十の大規模産業で使用されています。シナリオまたは大手科学研究会社によって使用されます。

公式ウェブサイトにアクセスしてください:https://openbayes.com/

MLC.AI コミュニティは、2022 年 6 月に設立されました。Apache TVM の主な発明者であり、機械学習の分野で有名な若い学者である Chen Tianqi がチームを率いて、主要な要素とコアを体系的に紹介する MLC オンラインコースを立ち上げました。機械学習コンパイルの概念。

2022 年 11 月、MLC.AI コミュニティボランティアの共同の努力により、最初の完全な TVM 中国語ドキュメントがオンラインで公開され、HyperAI Super Neural 公式 Web サイトで正常にホストされました。これにより、機械学習のコンパイルに関心のある国内開発者にさらに多くの情報を提供できるようになりました。新しいテクノロジーの基礎、つまりドキュメントを学びます。

MLC オンラインコース:https://mlc.ai/

TVM 中国語ドキュメント:https://tvm.hyper.ai/

2011年4月に設立されたGarage Coffeeは、中国で初期段階のインターネットスタートアップに特化した企業の一つです。同社は「大衆起業」というコンセプトに基づき、初期段階の起業家向けに、低コストで利便性の高い、フルファクターのオープンイノベーションと起業支援サービスプラットフォームを構築しています。

北京中関村創業街初のメイカースペースであるGarage Coffeeは、コーヒーショップをインタラクティブなキャリアとして活用し、起業家チームにインタラクティブなオフィススペースとインキュベーションサービスを提供することで、共有、共同促進、統合、共存を促進しています。Garage Coffeeは世界初の起業をテーマにしたコーヒーショップであり、中国で最も影響力のある国内のメイカースペースであり、国際的なイノベーションと起業のプラットフォームです。

イベントサポート

PPT を入手:WeChatパブリックアカウント「HyperAI Super Neuro」をフォローし、キーワード「0705 AI Compiler」に返信すると、認定講師の講演PPTを入手できます。

QRコードをスキャンしてイベントグループに参加してください⬇️

イベントレビュー | AMD/Muxi Integrated Circuit/ByteDance/北京大学ハードウェア全体にわたる統合コンパイルエコシステムの詳細な分析

1年前

WeChatパブリックアカウント「HyperAI Super Neuro」をフォローし、キーワード「0705 AI Compiler」に返信すると、認定講師の講演PPTを入手できます。

活動内容のレビュー

以下、共有内容と実際の共有記事の簡単な紹介です。

トピックを共有:オープンソースコミュニティを支援し、AMD Tritonコンパイラを分析します

この共有を見ると、次のことが理解できるでしょう。

1. AMD GPUアーキテクチャの概要

2. AMD GPUのTritonオープンソースコミュニティにおける最新の取り組み

完全な共有記録を表示するにはクリックしてください:

AMD AIアーキテクト張寧氏：AMD Tritonコンパイラを多角的に分析し、オープンソースエコシステムの構築を支援する

トピックを共有:Muxi GPUでのTVMアプリケーションの実践

この共有を見ると、次のことが理解できるでしょう。

1. TVMを国内GPGPUに適応させる際に遭遇する可能性のある問題

2. 国内の GPGPU における TVM の利点は何ですか? また、どのような点にさらなる進歩が必要ですか?

3. 国内GPGPUにおけるTVMなどのAIコンパイラのサポート状況について、また関連するエコシステムの拡大方法について議論する。

完全な共有記録を表示するにはクリックしてください:

建築的特徴からエコシステム構築まで、Muxi Dong Zhaohuaは国産GPUにおけるTVMの応用実践を深く分析する

トピックを共有:Triton分散: 高性能通信のためのネイティブPythonプログラミング

この共有を見ると、次のことが理解できるでしょう。

1. トリトンが配信する最新技術

2. Pythonによる通信プログラミングの課題

3. 分散コンパイルの将来方向

完全な共有記録を表示するにはクリックしてください:

トピックを共有:TileLang: オペレーターの開発はもはや「頭を悩ませる」ものではなく、パフォーマンスは依然としてオンラインです

この共有を見ると、次のことが理解できるでしょう。

1. よりシンプルで効率的な高性能オペレータ開発言語を習得する

2. TileLangのコアとなる設計コンセプトと技術的な利点を理解する

完全な共有記録を表示するにはクリックしてください:

2025 AI コンパイラーのご紹介 · ご期待ください

中国で最も活発なAIコンパイラコミュニティを一緒に作りましょう！最後に、現場の集合写真を共有しましょう❤️

スポンサーとパートナー

公式ウェブサイトにアクセスしてください:https://hyper.ai/

公式ウェブサイトにアクセスしてください:https://openbayes.com/

MLC オンラインコース:https://mlc.ai/

TVM 中国語ドキュメント:https://tvm.hyper.ai/

イベントサポート

QRコードをスキャンしてイベントグループに参加してください⬇️

Command Palette

イベントレビュー | AMD/Muxi Integrated Circuit/ByteDance/北京大学 ハードウェア全体にわたる統合コンパイルエコシステムの詳細な分析

活動内容のレビュー

2025 AI コンパイラーのご紹介 · ご期待ください

スポンサーとパートナー

Command Palette

イベントレビュー | AMD/Muxi Integrated Circuit/ByteDance/北京大学 ハードウェア全体にわたる統合コンパイルエコシステムの詳細な分析

活動内容のレビュー

2025 AI コンパイラーのご紹介 · ご期待ください

スポンサーとパートナー

関連 ニュース

イベントプレビュー｜AIコンピューティング、TileRT、テンセント、ファーウェイ、AIコンピューティングイノベーションが連携し、多層的な協調最適化を探求

MITなどが開発したGPU電力推定フレームワークであるEnergAIzerは、平均1.8秒で予測を完了し、誤差は約81 TP3Tです。

テンセントがHy-MT1.5翻訳モデルをオープンソース化：440MBで最高レベルの翻訳能力を実現。MITがMathNetを共同リリース：27,000の実際のオリンピック数学問題を網羅したマルチモーダル数学推論ベンチマーク。

オンラインチュートリアル | UC Berkeley/NVIDIAなどが、GPUメモリを4倍節約し、トレーニング時間を10%短縮するオープンソースの3DGSライブラリgsplatをリリースしました。

4段階の画像出力/4K品質/6倍の高速化、PiDはピクセル拡散を使用してデコードと超解像出力を統合します。SA-3DAO：アーティストが手作業で作成した3Dメッシュとペアになった1000組の実画像を含むデータセット。

MITは、推論速度を1.4～3.7倍向上させることで、拡散モデルにおけるサンプリング遅延のボトルネックを克服するDRiffusionを提案している。

オンラインチュートリアル | 数十ページにわたる文書を一度に32,000語のコンテキスト解析：Baiduオープンソース無制限OCR、長文文書を含む複雑なシナリオのリファクタリング

Command Palette

イベントレビュー | AMD/Muxi Integrated Circuit/ByteDance/北京大学 ハードウェア全体にわたる統合コンパイルエコシステムの詳細な分析

活動内容のレビュー

2025 AI コンパイラーのご紹介 · ご期待ください

スポンサーとパートナー

関連 ニュース

イベントプレビュー｜AIコンピューティング、TileRT、テンセント、ファーウェイ、AIコンピューティングイノベーションが連携し、多層的な協調最適化を探求

MITなどが開発したGPU電力推定フレームワークであるEnergAIzerは、平均1.8秒で予測を完了し、誤差は約81 TP3Tです。

テンセントがHy-MT1.5翻訳モデルをオープンソース化：440MBで最高レベルの翻訳能力を実現。MITがMathNetを共同リリース：27,000の実際のオリンピック数学問題を網羅したマルチモーダル数学推論ベンチマーク。

オンラインチュートリアル | UC Berkeley/NVIDIAなどが、GPUメモリを4倍節約し、トレーニング時間を10%短縮するオープンソースの3DGSライブラリgsplatをリリースしました。

4段階の画像出力/4K品質/6倍の高速化、PiDはピクセル拡散を使用してデコードと超解像出力を統合します。SA-3DAO：アーティストが手作業で作成した3Dメッシュとペアになった1000組の実画像を含むデータセット。

MITは、推論速度を1.4～3.7倍向上させることで、拡散モデルにおけるサンプリング遅延のボトルネックを克服するDRiffusionを提案している。

オンラインチュートリアル | 数十ページにわたる文書を一度に32,000語のコンテキスト解析：Baiduオープンソース無制限OCR、長文文書を含む複雑なシナリオのリファクタリング

関連 ニュース

イベントプレビュー｜AIコンピューティング、TileRT、テンセント、ファーウェイ、AIコンピューティングイノベーションが連携し、多層的な協調最適化を探求

MITなどが開発したGPU電力推定フレームワークであるEnergAIzerは、平均1.8秒で予測を完了し、誤差は約81 TP3Tです。

テンセントがHy-MT1.5翻訳モデルをオープンソース化：440MBで最高レベルの翻訳能力を実現。MITがMathNetを共同リリース：27,000の実際のオリンピック数学問題を網羅したマルチモーダル数学推論ベンチマーク。

オンラインチュートリアル | UC Berkeley/NVIDIAなどが、GPUメモリを4倍節約し、トレーニング時間を10%短縮するオープンソースの3DGSライブラリgsplatをリリースしました。

4段階の画像出力/4K品質/6倍の高速化、PiDはピクセル拡散を使用してデコードと超解像出力を統合します。SA-3DAO：アーティストが手作業で作成した3Dメッシュとペアになった1000組の実画像を含むデータセット。

MITは、推論速度を1.4～3.7倍向上させることで、拡散モデルにおけるサンプリング遅延のボトルネックを克服するDRiffusionを提案している。

オンラインチュートリアル | 数十ページにわたる文書を一度に32,000語のコンテキスト解析：Baiduオープンソース無制限OCR、長文文書を含む複雑なシナリオのリファクタリング

関連 ニュース

イベントプレビュー｜AIコンピューティング、TileRT、テンセント、ファーウェイ、AIコンピューティングイノベーションが連携し、多層的な協調最適化を探求

MITなどが開発したGPU電力推定フレームワークであるEnergAIzerは、平均1.8秒で予測を完了し、誤差は約81 TP3Tです。

テンセントがHy-MT1.5翻訳モデルをオープンソース化：440MBで最高レベルの翻訳能力を実現。MITがMathNetを共同リリース：27,000の実際のオリンピック数学問題を網羅したマルチモーダル数学推論ベンチマーク。

オンラインチュートリアル | UC Berkeley/NVIDIAなどが、GPUメモリを4倍節約し、トレーニング時間を10%短縮するオープンソースの3DGSライブラリgsplatをリリースしました。

4段階の画像出力/4K品質/6倍の高速化、PiDはピクセル拡散を使用してデコードと超解像出力を統合します。SA-3DAO：アーティストが手作業で作成した3Dメッシュとペアになった1000組の実画像を含むデータセット。

MITは、推論速度を1.4～3.7倍向上させることで、拡散モデルにおけるサンプリング遅延のボトルネックを克服するDRiffusionを提案している。

オンラインチュートリアル | 数十ページにわたる文書を一度に32,000語のコンテキスト解析：Baiduオープンソース無制限OCR、長文文書を含む複雑なシナリオのリファクタリング

イベントレビュー | AMD/Muxi Integrated Circuit/ByteDance/北京大学ハードウェア全体にわたる統合コンパイルエコシステムの詳細な分析

イベントレビュー | AMD/Muxi Integrated Circuit/ByteDance/北京大学ハードウェア全体にわたる統合コンパイルエコシステムの詳細な分析

関連ニュース

イベントレビュー | AMD/Muxi Integrated Circuit/ByteDance/北京大学ハードウェア全体にわたる統合コンパイルエコシステムの詳細な分析

関連ニュース

関連ニュース

関連ニュース