テクニカルサロン | 上海イノベーションラボ、TileAI、Huawei、Advanced Compiler Lab、AI9Starsが上海に集結し、演算子最適化プラクティスの全チェーンを詳細に分析

7ヶ月前

第8回Meet AI Compilerは12月27日に上海で開催されます！今号では、上海イノベーションアカデミー、TileAIコミュニティ、Huawei HiSilicon、Advanced Compiler Lab、AI9Starsコミュニティから数名の専門家を招き、ソフトウェアスタック設計、オペレータ開発、パフォーマンス最適化に至るまで、テクノロジーチェーン全体にわたる知見を共有いただきました。コンテンツは、TVMのクロスエコシステム相互運用性、PyPTOのフュージョンオペレータ最適化、TileRTの低レイテンシシステム、Tritonの複数アーキテクチャ向け主要最適化技術、AutoTritonのオペレータ最適化を網羅し、理論から実装までの包括的な技術パスを示しています。

登録受付中です！席数に限りがございますので、ぜひご参加ください！貴重な情報をご提供いたします。上海でお待ちしております！🫶

イベント詳細

⏰ 時間：12月27日（土）13:30～17:30

📍 場所: 上海イノベーションアカデミー、上海市徐匯区華発路699巷3号

👬 参加人数：150名（席数に限りがございますので、お早めにお申し込みください）

🙌🏻 登録する:https://hdxu.cn/1CupU

議題の詳細は下記の通りです⬇️

ゲストと議論のトピック

ゲストを共有する

13:40-17:20

トピックを共有:TVM FFI: 機械学習システム向けのオープン ABI と FFI

内容紹介：TVM FFIは、機械学習システムにおける断片化されたエコシステムと相互運用性の問題を解決することを目指しています。オープンなABIおよびFFI標準を定義することで、安定したCABIとDLPackを活用し、ゼロコピーデータ転送を実現し、PyTorchなどのフレームワークと基盤となるコンパイラ間のギャップを埋めます。効率的なクロスランゲージ呼び出しをサポートし、マルチプラットフォームへの適応にかかるエンジニアリングコストを大幅に削減します。

この共有を見ると、次のことが理解できるでしょう。

1. TVM-FFI ユニバーサル標準を学習して、クロス言語 MLsys の開発および保守コストを大幅に削減します。

2. 将来を見据えたモジュール型MLエコシステムを理解し構築する

トピックを共有:TileRT: 低レイテンシの大規模モデル推論のためのソフトウェアとハードウェアの探求

内容紹介：大規模モデルは数兆個のパラメータと数百万トークンを超えるシーケンス処理能力を備え、その性能は記録を次々と更新しています。しかし、モデルの究極の計算速度の追求は止まるところを知りません。一方で、リアルタイム意思決定やゲーム理論など、多くの低レイテンシシナリオでは、数秒、あるいは数ミリ秒以内の応答が求められます。一方、大規模モデルのトレーニングにおけるエージェント時代の到来により、極めて長いシーケンスのロールアウト時間が大きなボトルネックとなっています。

このレポートでは、TileRT プロジェクトを紹介し、AI コンパイラ、ランタイム、アーキテクチャ設計の観点から、非常に低いレイテンシで大規模モデル計算を行うソフトウェアスタックを構築する方法を探ります。

この共有を見ると、次のことが理解できるでしょう。

1. 大規模モデルにおける低レイテンシ推論シナリオの背景、重要性、将来の展望を理解する。

2. TileRTの技術的課題と実践経験の共有

トピックを共有:PyPTO: ホワイトボックスコンパイルに基づいて融合演算子を開発するためのフレームワーク。

内容紹介：このプレゼンテーションでは、Huaweiが新たにリリースした統合型オペレータ開発フレームワークPyPTOに焦点を当てます。Tensor/Tileプログラミングパラダイムをベースとし、インコアSRAM管理、クロスプラットフォームPTO命令セット、MPMDランタイムといった技術に着目し、Human-In-The-Loopチューニングとホワイトボックスコンパイルを組み合わせることで、高性能と使いやすさのバランスを実現しています。

この共有を見ると、次のことが理解できるでしょう。

1. SIMD アーキテクチャ用にネイティブに設計された融合演算子開発フレームワークである PyPTO の設計哲学とコアアーキテクチャを習得します。

2. ユーザーの専門的な経験を活用することに重点を置いた PyPTO のホワイトボックスコンパイル哲学と、Human-In-The-Loop 最適化の本質を習得します。

3. PyPTO が提供する視覚化ツールを使用して、Ascend プラットフォーム上で高性能な融合演算子を迅速に開発するプロセス全体を習得します。

トピックを共有:Tritonコンパイラのコンパイル最適化プラクティス

内容紹介：このプレゼンテーションでは、Tritonコンパイラの最適化手法に焦点を当て、Tritonの言語とコンパイラの構造、エコシステムの進化、そしてオペレータライブラリの開発手法を体系的に紹介します。また、CPU、NPU、GPUを含む複数のアーキテクチャにおける主要な最適化手法についても深く掘り下げ、高性能な統合オペレータシステムを構築するための完全なパスを示します。

この共有を見ると、次のことが理解できるでしょう。

1. トリトンエコシステムの最新動向

2. 複数のアーキテクチャ（CPU/NPU/GPU）におけるTritonコンパイラの主要な最適化手法

トピックを共有:AutoTriton: 強化学習による大規模モデルのためのTriton演算子最適化手法の探究

内容紹介：CUDAのような言語を用いて効率的なカーネルを作成することは、パフォーマンスエンジニアの専門分野です。Tritonのようなプログラミングフレームワークの登場により、カーネルのプログラミング性は飛躍的に向上しました。しかしながら、開発者は依然として主要なパラメータを手動で設定する必要があり、パフォーマンスの移植性と幅広い適用範囲が制限されています。本レポートでは、大規模演算子生成のためのベンチマークとモデルの調査結果を紹介し、演算子最適化における大規模モデルの大きな可能性について考察します。

この共有を見ると、次のことが理解できるでしょう。

1. 大規模モデルエンパワーメント演算子最適化における関連研究と最新の進歩

2. オペレータ最適化における大規模モデルの主要技術

スポンサーとパートナー

HyperAI (hyper.ai) は、国際的にリードする人工知能と高性能コンピューティングのコミュニティです。業界情報レポート、データセットの高速ダウンロード、オンラインチュートリアルのデモンストレーション、人気モデルのパフォーマンス評価、最先端の論文推奨、価値の高い結果の解釈、トップカンファレンスカレンダーの統合など、一連のサービスを提供することで、世界のデータサイエンスおよび人工知能業界の開発者や愛好家が学び、理解し、実践できるように支援し、コミュニティとともに人工知能の未来を築くことを目指しています。

公式ウェブサイトにアクセスしてください:https://hyper.ai/

OpenBayes は中国の大手ハイパフォーマンスコンピューティングサービスプロバイダーです古典的なソフトウェアエコロジーと機械学習モデルを新世代の異種チップに移植することにより、産業界や大学の科学研究向けに、より高速で使いやすいデータサイエンスコンピューティング製品を提供します。その製品は、数十の大規模産業で使用されています。シナリオまたは大手科学研究会社によって使用されます。

公式ウェブサイトにアクセスしてください:https://openbayes.com/

MLC.AI コミュニティは、2022 年 6 月に設立されました。Apache TVM の主な発明者であり、機械学習の分野で有名な若い学者である Chen Tianqi がチームを率いて、主要な要素とコアを体系的に紹介する MLC オンラインコースを立ち上げました。機械学習コンパイルの概念。

2022 年 11 月、MLC.AI コミュニティボランティアの共同の努力により、最初の完全な TVM 中国語ドキュメントがオンラインで公開され、HyperAI Super Neural 公式 Web サイトで正常にホストされました。これにより、機械学習のコンパイルに関心のある国内開発者にさらに多くの情報を提供できるようになりました。新しいテクノロジーの基礎、つまりドキュメントを学びます。

MLC オンラインコース:https://mlc.ai/

TVM 中国語ドキュメント:https://tvm.hyper.ai/

上海イノベーションアカデミーは、トップクラスの大学、有力企業、研究機関が共同で設立した新しいタイプの人材育成機関です。「学生中心、最先端研究」という育成理念を掲げ、優れた教員陣、卓越した研修制度、そして卓越したサポート体制を通じて、中国独自のAIリーダーシップ人材育成プログラムを構築しています。中国におけるAI人材の育成と、世界クラスの人工知能イノベーションハブの構築に尽力しています。

イベントサポート

会場のスペースに限りがあるため、150席のみのご用意となります。お席を確保するために、お早めにお申し込みいただくことをお勧めします。

12月27日13:30〜17:30にお会いしましょう！

テクニカルサロン | 上海イノベーションラボ、TileAI、Huawei、Advanced Compiler Lab、AI9Starsが上海に集結し、演算子最適化プラクティスの全チェーンを詳細に分析

7ヶ月前

登録受付中です！席数に限りがございますので、ぜひご参加ください！貴重な情報をご提供いたします。上海でお待ちしております！🫶

イベント詳細

⏰ 時間：12月27日（土）13:30～17:30

📍 場所: 上海イノベーションアカデミー、上海市徐匯区華発路699巷3号

👬 参加人数：150名（席数に限りがございますので、お早めにお申し込みください）

🙌🏻 登録する:https://hdxu.cn/1CupU

議題の詳細は下記の通りです⬇️

ゲストと議論のトピック

ゲストを共有する

13:40-17:20

トピックを共有:TVM FFI: 機械学習システム向けのオープン ABI と FFI

この共有を見ると、次のことが理解できるでしょう。

1. TVM-FFI ユニバーサル標準を学習して、クロス言語 MLsys の開発および保守コストを大幅に削減します。

2. 将来を見据えたモジュール型MLエコシステムを理解し構築する

トピックを共有:TileRT: 低レイテンシの大規模モデル推論のためのソフトウェアとハードウェアの探求

この共有を見ると、次のことが理解できるでしょう。

1. 大規模モデルにおける低レイテンシ推論シナリオの背景、重要性、将来の展望を理解する。

2. TileRTの技術的課題と実践経験の共有

トピックを共有:PyPTO: ホワイトボックスコンパイルに基づいて融合演算子を開発するためのフレームワーク。

この共有を見ると、次のことが理解できるでしょう。

1. SIMD アーキテクチャ用にネイティブに設計された融合演算子開発フレームワークである PyPTO の設計哲学とコアアーキテクチャを習得します。

2. ユーザーの専門的な経験を活用することに重点を置いた PyPTO のホワイトボックスコンパイル哲学と、Human-In-The-Loop 最適化の本質を習得します。

3. PyPTO が提供する視覚化ツールを使用して、Ascend プラットフォーム上で高性能な融合演算子を迅速に開発するプロセス全体を習得します。

トピックを共有:Tritonコンパイラのコンパイル最適化プラクティス

この共有を見ると、次のことが理解できるでしょう。

1. トリトンエコシステムの最新動向

2. 複数のアーキテクチャ（CPU/NPU/GPU）におけるTritonコンパイラの主要な最適化手法

トピックを共有:AutoTriton: 強化学習による大規模モデルのためのTriton演算子最適化手法の探究

この共有を見ると、次のことが理解できるでしょう。

1. 大規模モデルエンパワーメント演算子最適化における関連研究と最新の進歩

2. オペレータ最適化における大規模モデルの主要技術

スポンサーとパートナー

公式ウェブサイトにアクセスしてください:https://hyper.ai/

公式ウェブサイトにアクセスしてください:https://openbayes.com/

MLC オンラインコース:https://mlc.ai/

TVM 中国語ドキュメント:https://tvm.hyper.ai/

イベントサポート

会場のスペースに限りがあるため、150席のみのご用意となります。お席を確保するために、お早めにお申し込みいただくことをお勧めします。

12月27日13:30〜17:30にお会いしましょう！

テクニカルサロン | 上海イノベーションラボ、TileAI、Huawei、Advanced Compiler Lab、AI9Starsが上海に集結し、演算子最適化プラクティスの全チェーンを詳細に分析

ゲストと議論のトピック

スポンサーとパートナー

イベントサポート

テクニカルサロン | 上海イノベーションラボ、TileAI、Huawei、Advanced Compiler Lab、AI9Starsが上海に集結し、演算子最適化プラクティスの全チェーンを詳細に分析

ゲストと議論のトピック

スポンサーとパートナー

イベントサポート

関連ニュース

イベントプレビュー｜AIコンピューティング、TileRT、テンセント、ファーウェイ、AIコンピューティングイノベーションが連携し、多層的な協調最適化を探求

わずか3秒の音声で「ナレーションの自由」を実現：Mistralのオープンソース音声モデルVoxtral-4B-TTS-2603。データ品質の新たなベンチマークを設定：Sutra 10B事前学習。

4段階の画像出力/4K品質/6倍の高速化、PiDはピクセル拡散を使用してデコードと超解像出力を統合します。SA-3DAO：アーティストが手作業で作成した3Dメッシュとペアになった1000組の実画像を含むデータセット。

テンセントがHy-MT1.5翻訳モデルをオープンソース化：440MBで最高レベルの翻訳能力を実現。MITがMathNetを共同リリース：27,000の実際のオリンピック数学問題を網羅したマルチモーダル数学推論ベンチマーク。

MITとIBMは、これまでで最大の合成チャートデータセットであるChartNetを公開した。ChartNetは、150万個の多様なチャートサンプルを生成している。

絵文字で音声生成を制御できますか? Irodori-TTS は RF-DiT アーキテクチャに基づく日本語 TTS です。湿疹と白癬の皮膚疾患データセット: 医用画像分類と転移学習をサポートします。

テクニカルサロン | 上海イノベーションラボ、TileAI、Huawei、Advanced Compiler Lab、AI9Starsが上海に集結し、演算子最適化プラクティスの全チェーンを詳細に分析

ゲストと議論のトピック

スポンサーとパートナー

イベントサポート

関連ニュース

イベントプレビュー｜AIコンピューティング、TileRT、テンセント、ファーウェイ、AIコンピューティングイノベーションが連携し、多層的な協調最適化を探求

わずか3秒の音声で「ナレーションの自由」を実現：Mistralのオープンソース音声モデルVoxtral-4B-TTS-2603。データ品質の新たなベンチマークを設定：Sutra 10B事前学習。

4段階の画像出力/4K品質/6倍の高速化、PiDはピクセル拡散を使用してデコードと超解像出力を統合します。SA-3DAO：アーティストが手作業で作成した3Dメッシュとペアになった1000組の実画像を含むデータセット。

テンセントがHy-MT1.5翻訳モデルをオープンソース化：440MBで最高レベルの翻訳能力を実現。MITがMathNetを共同リリース：27,000の実際のオリンピック数学問題を網羅したマルチモーダル数学推論ベンチマーク。

MITとIBMは、これまでで最大の合成チャートデータセットであるChartNetを公開した。ChartNetは、150万個の多様なチャートサンプルを生成している。

絵文字で音声生成を制御できますか? Irodori-TTS は RF-DiT アーキテクチャに基づく日本語 TTS です。湿疹と白癬の皮膚疾患データセット: 医用画像分類と転移学習をサポートします。

関連ニュース

イベントプレビュー｜AIコンピューティング、TileRT、テンセント、ファーウェイ、AIコンピューティングイノベーションが連携し、多層的な協調最適化を探求

わずか3秒の音声で「ナレーションの自由」を実現：Mistralのオープンソース音声モデルVoxtral-4B-TTS-2603。データ品質の新たなベンチマークを設定：Sutra 10B事前学習。

4段階の画像出力/4K品質/6倍の高速化、PiDはピクセル拡散を使用してデコードと超解像出力を統合します。SA-3DAO：アーティストが手作業で作成した3Dメッシュとペアになった1000組の実画像を含むデータセット。

テンセントがHy-MT1.5翻訳モデルをオープンソース化：440MBで最高レベルの翻訳能力を実現。MITがMathNetを共同リリース：27,000の実際のオリンピック数学問題を網羅したマルチモーダル数学推論ベンチマーク。

MITとIBMは、これまでで最大の合成チャートデータセットであるChartNetを公開した。ChartNetは、150万個の多様なチャートサンプルを生成している。

絵文字で音声生成を制御できますか? Irodori-TTS は RF-DiT アーキテクチャに基づく日本語 TTS です。湿疹と白癬の皮膚疾患データセット: 医用画像分類と転移学習をサポートします。

関連ニュース

イベントプレビュー｜AIコンピューティング、TileRT、テンセント、ファーウェイ、AIコンピューティングイノベーションが連携し、多層的な協調最適化を探求

わずか3秒の音声で「ナレーションの自由」を実現：Mistralのオープンソース音声モデルVoxtral-4B-TTS-2603。データ品質の新たなベンチマークを設定：Sutra 10B事前学習。

4段階の画像出力/4K品質/6倍の高速化、PiDはピクセル拡散を使用してデコードと超解像出力を統合します。SA-3DAO：アーティストが手作業で作成した3Dメッシュとペアになった1000組の実画像を含むデータセット。

テンセントがHy-MT1.5翻訳モデルをオープンソース化：440MBで最高レベルの翻訳能力を実現。MITがMathNetを共同リリース：27,000の実際のオリンピック数学問題を網羅したマルチモーダル数学推論ベンチマーク。

MITとIBMは、これまでで最大の合成チャートデータセットであるChartNetを公開した。ChartNetは、150万個の多様なチャートサンプルを生成している。

絵文字で音声生成を制御できますか? Irodori-TTS は RF-DiT アーキテクチャに基づく日本語 TTS です。湿疹と白癬の皮膚疾患データセット: 医用画像分類と転移学習をサポートします。

Command Palette

テクニカルサロン | 上海イノベーションラボ、TileAI、Huawei、Advanced Compiler Lab、AI9Starsが上海に集結し、演算子最適化プラクティスの全チェーンを詳細に分析

ゲストと議論のトピック

スポンサーとパートナー

イベントサポート

Command Palette

テクニカルサロン | 上海イノベーションラボ、TileAI、Huawei、Advanced Compiler Lab、AI9Starsが上海に集結し、演算子最適化プラクティスの全チェーンを詳細に分析

ゲストと議論のトピック

スポンサーとパートナー

イベントサポート

関連 ニュース

イベントプレビュー｜AIコンピューティング、TileRT、テンセント、ファーウェイ、AIコンピューティングイノベーションが連携し、多層的な協調最適化を探求

わずか3秒の音声で「ナレーションの自由」を実現：Mistralのオープンソース音声モデルVoxtral-4B-TTS-2603。データ品質の新たなベンチマークを設定：Sutra 10B事前学習。

4段階の画像出力/4K品質/6倍の高速化、PiDはピクセル拡散を使用してデコードと超解像出力を統合します。SA-3DAO：アーティストが手作業で作成した3Dメッシュとペアになった1000組の実画像を含むデータセット。

テンセントがHy-MT1.5翻訳モデルをオープンソース化：440MBで最高レベルの翻訳能力を実現。MITがMathNetを共同リリース：27,000の実際のオリンピック数学問題を網羅したマルチモーダル数学推論ベンチマーク。

MITとIBMは、これまでで最大の合成チャートデータセットであるChartNetを公開した。ChartNetは、150万個の多様なチャートサンプルを生成している。

絵文字で音声生成を制御できますか? Irodori-TTS は RF-DiT アーキテクチャに基づく日本語 TTS です。湿疹と白癬の皮膚疾患データセット: 医用画像分類と転移学習をサポートします。

Command Palette

テクニカルサロン | 上海イノベーションラボ、TileAI、Huawei、Advanced Compiler Lab、AI9Starsが上海に集結し、演算子最適化プラクティスの全チェーンを詳細に分析

ゲストと議論のトピック

スポンサーとパートナー

イベントサポート

関連 ニュース

イベントプレビュー｜AIコンピューティング、TileRT、テンセント、ファーウェイ、AIコンピューティングイノベーションが連携し、多層的な協調最適化を探求

わずか3秒の音声で「ナレーションの自由」を実現：Mistralのオープンソース音声モデルVoxtral-4B-TTS-2603。データ品質の新たなベンチマークを設定：Sutra 10B事前学習。

4段階の画像出力/4K品質/6倍の高速化、PiDはピクセル拡散を使用してデコードと超解像出力を統合します。SA-3DAO：アーティストが手作業で作成した3Dメッシュとペアになった1000組の実画像を含むデータセット。

テンセントがHy-MT1.5翻訳モデルをオープンソース化：440MBで最高レベルの翻訳能力を実現。MITがMathNetを共同リリース：27,000の実際のオリンピック数学問題を網羅したマルチモーダル数学推論ベンチマーク。

MITとIBMは、これまでで最大の合成チャートデータセットであるChartNetを公開した。ChartNetは、150万個の多様なチャートサンプルを生成している。

絵文字で音声生成を制御できますか? Irodori-TTS は RF-DiT アーキテクチャに基づく日本語 TTS です。湿疹と白癬の皮膚疾患データセット: 医用画像分類と転移学習をサポートします。

関連 ニュース

イベントプレビュー｜AIコンピューティング、TileRT、テンセント、ファーウェイ、AIコンピューティングイノベーションが連携し、多層的な協調最適化を探求

わずか3秒の音声で「ナレーションの自由」を実現：Mistralのオープンソース音声モデルVoxtral-4B-TTS-2603。データ品質の新たなベンチマークを設定：Sutra 10B事前学習。

4段階の画像出力/4K品質/6倍の高速化、PiDはピクセル拡散を使用してデコードと超解像出力を統合します。SA-3DAO：アーティストが手作業で作成した3Dメッシュとペアになった1000組の実画像を含むデータセット。

テンセントがHy-MT1.5翻訳モデルをオープンソース化：440MBで最高レベルの翻訳能力を実現。MITがMathNetを共同リリース：27,000の実際のオリンピック数学問題を網羅したマルチモーダル数学推論ベンチマーク。

MITとIBMは、これまでで最大の合成チャートデータセットであるChartNetを公開した。ChartNetは、150万個の多様なチャートサンプルを生成している。

絵文字で音声生成を制御できますか? Irodori-TTS は RF-DiT アーキテクチャに基づく日本語 TTS です。湿疹と白癬の皮膚疾患データセット: 医用画像分類と転移学習をサポートします。

関連 ニュース

イベントプレビュー｜AIコンピューティング、TileRT、テンセント、ファーウェイ、AIコンピューティングイノベーションが連携し、多層的な協調最適化を探求

わずか3秒の音声で「ナレーションの自由」を実現：Mistralのオープンソース音声モデルVoxtral-4B-TTS-2603。データ品質の新たなベンチマークを設定：Sutra 10B事前学習。

4段階の画像出力/4K品質/6倍の高速化、PiDはピクセル拡散を使用してデコードと超解像出力を統合します。SA-3DAO：アーティストが手作業で作成した3Dメッシュとペアになった1000組の実画像を含むデータセット。

テンセントがHy-MT1.5翻訳モデルをオープンソース化：440MBで最高レベルの翻訳能力を実現。MITがMathNetを共同リリース：27,000の実際のオリンピック数学問題を網羅したマルチモーダル数学推論ベンチマーク。

MITとIBMは、これまでで最大の合成チャートデータセットであるChartNetを公開した。ChartNetは、150万個の多様なチャートサンプルを生成している。

絵文字で音声生成を制御できますか? Irodori-TTS は RF-DiT アーキテクチャに基づく日本語 TTS です。湿疹と白癬の皮膚疾患データセット: 医用画像分類と転移学習をサポートします。

関連ニュース

関連ニュース

関連ニュース

関連ニュース