イベントプレビュー｜AIコンピューティング、TileRT、テンセント、ファーウェイ、AIコンピューティングイノベーションが連携し、多層的な協調最適化を探求

8時間前

情報

AI コンパイラ

北京のうだるような暑さから上海の凍えるような冬まで、HyperAIが主催する「Meet AI Compiler」技術サロンは、3年間にわたりAIコンパイルのエコシステムと共に歩んできました。この3年間、数え切れないほどのエンジニアや研究者が最先端の知見を共有し、技術的な見解を交換し、大規模モデル時代のコンパイル技術の継続的な進化を共に推進し、パフォーマンス最適化、異種環境への適応、そしてエンジニアリング実装の限界を絶えず押し広げてきました。

技術は進化を続けており、最先端のイノベーションとの連携を目指す私たちの取り組みは、決して止まることはありません。 8月1日、第9回Meet AI Compiler技術サロンが北京で再び開催されます！本号では、人工知能アカデミー、TileRTチーム、テンセント、ファーウェイ・アセンド、および智源イノベーションから複数の専門家をお招きしました。彼らは、FlagTree言語拡張、TileRT超低遅延推論、FalconGEMM演算子最適化、AscendNPU IRオープンソース共同構築、および具現化された知能の応用事例について詳細な分析を行い、言語表現、演算子計算、推論実行、シナリオ適用など、複数のレベルにおけるAIコンパイラの協調的進化の全体像を提示することを目指します。

いつものように、席数には限りがありますので、お早めにお申し込みください！今すぐ席を確保して、会場でお会いしましょう！

イベント詳細

⏰ 日時：8月1日（土）13:30～17:30

📍場所：北京市海淀区中関村起業街12号棟5階多目的ホール

👬 参加人数：150名（席数に限りがございますので、お早めにお申し込みください）

🙌🏻 登録リンク:https://hdxu.cn/1KkIr

イベントグループに参加するには、QR コードをスキャンして「AI Compiler」をメモします。

ゲストと議題

セッション 1 ゲストの共有

トピックを共有:FlagTree：Triton-TLE言語拡張機能、タイルIRバックエンド、およびコンパイラ最適化手法

内容紹介：本プレゼンテーションは3つのパートに分かれています。最初のパートでは、Tritonが直面する課題と、TLE（Tracked Operators）が3段階の言語拡張を通じてハードウェアの詳細を段階的に公開し、移植性、保守性、パフォーマンスのバランスを向上させる方法について紹介します。2番目のパートでは、Tile IRをTritonコンパイラFlagTreeに統合するエンジニアリング手法に焦点を当て、新しいタイプのコンパイラバックエンドとして、Triton演算子のパフォーマンス最適化領域をさらに拡張する方法を紹介します。3番目のパートでは、レイアウト最適化や命令の並べ替えなど、主要なコンパイラ最適化手法を体系的に分析し、クロスチップ高性能演算子のための完全なコンパイル最適化パスを示します。

この共有を見ると、次のことが理解できるでしょう。

1. TLEはオンチップメモリをどのように制御し、分散モデルや生産者・消費者モデルをどのように表現し、ベンダー独自の言語をどのようにインライン化するのか？

2. TLEおよびTile IRバックエンドは、Tritonキーオペレーターのパフォーマンス上限をどのように向上させることができますか？

3. コンパイラ最適化技術がデータレイアウト変換のオーバーヘッドを削減し、命令実行効率を向上させ、Triton演算子のパフォーマンスをさらに引き出す方法。

トピックを共有:TileRT：スピードこそが知能 ― 超低遅延大規模モデル推論のための計算探索と共同設計

内容紹介：大規模モデルが数兆個のパラメータに達し、エージェント時代に突入するにつれ、極めて高速な推論速度は、複雑なタスクフローをサポートし、モデルの潜在能力を最大限に引き出すための重要な要素となっています。しかし、システムがレイテンシの限界をさらに押し上げようとすると、従来のシステムアーキテクチャや実行時のボトルネックが、しばしば克服不可能な障害となります。

本レポートでは、TileRTの最新の研究成果を紹介し、AIコンパイラ、ランタイムアーキテクチャの進化、モデルシステム協調設計といった観点から、超低遅延で大規模モデルコンピューティングのためのソフトウェアスタックを構築する方法を実証します。

この共有を見ると、次のことが理解できるでしょう。

1. スピードは知能である：エージェント時代において、なぜ「スピード」が大規模モデルの推論側における重要な指標になりつつあるのかを探る。

2. システムアーキテクチャの探求：このセクションでは、TileRT のアーキテクチャの進化について紹介し、GLM-5 を例として、基盤となる計算スケジューリングをリファクタリングすることで推論パフォーマンスを大幅に向上させる方法について説明します。

3. モデルとシステムの共同設計と生産の実践：モデルとシステムの共同設計を通じて、1兆パラメータモデルのシングルバッチ推論における1000 TPSの速度ボトルネックを打破する方法を共有します。

トピックを共有:FalconGEMM：低複雑度行列乗算でハードウェアの限界を超える

内容紹介：行列乗算 (GEMM) は、大規模モデルの学習と推論における計算能力の中核を成すものです。しかし、モデルのサイズが指数関数的に増加するにつれて、標準アルゴリズムの O(N³) の複雑さはハードウェアの物理的な限界に常に近づいています。チップの計算能力が限界に達したときに、どのようにパフォーマンスを引き出し続けるかが、大規模モデルインフラストラクチャの重要な課題となっています。演算子最適化が限界に達した状況で、低複雑度行列乗算がパフォーマンスの限界を突破するための原理、価値、およびエンジニアリング上の課題を理解することが不可欠です。数学コミュニティが 50 年以上にわたって探求してきたアプローチの 1 つは、低複雑度行列乗算 (LCMA、Strassen や AlphaTensor など) です。これは、乗算回数を減らしてメモリへのアクセスと加算回数を増やすことで、ハードウェアの限界を同等の意味で「突破」するものです。しかし、メモリアクセスの肥大化、アルゴリズムの選択、クロスプラットフォーム移植性という 3 つの主要なエンジニアリング上の課題により、長い間理論レベルにとどまっています。

本レポートでは、LCMAを体系的に論文段階から実用レベルのソフトウェアスタックへと発展させたFalconGEMMプロジェクトを紹介します。このプロジェクトは、コンパイラによる自動コード生成、グループ並列融合によるメモリアクセス最適化、パフォーマンスモデルに基づくアルゴリズム決定という3つのレベルを網羅しています。また、様々なGPU/CPUプラットフォームおよび実際の大規模モデルワークロードにおいて、トップレベルの公式ライブラリを総合的に凌駕する性能を実現しています。

この共有を見ると、次のことが理解できるでしょう。

1. 演算子最適化が限界に達したときに、低複雑度行列乗算が性能の上限を突破する際の原理、価値、およびエンジニアリング上の課題を理解する。

FalconGEMMの技術ソリューションとクロスプラットフォーム対応の実践。

トピックを共有:AscendNPU IR：コンパイルプラットフォームはオープンソースであり、Ascendとの多言語統合をサポートしています。

内容紹介：AscendコンパイラコンポーネントであるAscendNPU IRは、完全にオープンソース化されました。AscendからサードパーティのプログラミングフレームワークへのMLIRアクセスレイヤーとして、柔軟な統合、完全な式表現、Ascendに最適化されたコンパイル最適化機能を提供し、複数のフロントエンドDSLをサポートすることで、Ascend演算子のパフォーマンスを向上させます。

この共有を見ると、次のことが理解できるでしょう。

1. AscendNPU IRの全体的な技術アーキテクチャと設計思想を理解する。

2. Ascend 950拡張版におけるAscend NPU IRの新機能を理解する。

3. AscendNPU IRコミュニティ構築活動の内容と参加方法を理解する。

トピックを共有:具現化された知能分野向けの汎用AIコンパイラ

内容紹介：本レポートでは、ロボットモデルのエッジ配信、安定動作、クロスフレームワーク適応、エンジニアリングスケーリングにおける主要な課題に取り組み、完全なアルゴリズムパイプラインのキャプチャ、エクスポート、グループ化、コンパイル、ランタイム展開、およびパフォーマンス最適化に焦点を当てた、具現化された知能とマルチモーダル大規模モデル向けの汎用コンパイラを紹介します。

この共有を見ると、次のことが理解できるでしょう。

1. 複数のモデル、複数のフレームワーク、および多段階パイプラインによって生じるエンジニアリングの複雑さやメンテナンスコストなど、具現化されたインテリジェンスモデルの展開を従来のモデル展開と区別する主要な課題を理解する。

2.汎用コンパイラが動的トレースを通じてアルゴリズム全体の流れを捉え、前処理、VLAモデル、LLM、後処理などのモジュールをコンパイル可能、デプロイ可能、かつデプロイ可能なDAGテンプレートに整理する方法を習得する。

3. グループコンパイルと統一されたランタイムアーキテクチャが、さまざまなバックエンドをどのようにサポートし、さまざまなチップの利点を活用しながら統一された配信チェーンを維持するかを理解する。

4. 具現化されたドメインコンパイラと配信プラットフォーム間のインターフェースパラダイムを理解する。

スポンサーとパートナー

HyperAI (hyper.ai) は、国際的にリードする人工知能と高性能コンピューティングのコミュニティです。業界情報レポート、データセットの高速ダウンロード、オンラインチュートリアルのデモンストレーション、人気モデルのパフォーマンス評価、最先端の論文推奨、価値の高い結果の解釈、トップカンファレンスカレンダーの統合など、一連のサービスを提供することで、世界のデータサイエンスおよび人工知能業界の開発者や愛好家が学び、理解し、実践できるように支援し、コミュニティとともに人工知能の未来を築くことを目指しています。

公式ウェブサイトにアクセスしてください:https://hyper.ai/

OpenBayes は中国の大手ハイパフォーマンスコンピューティングサービスプロバイダーです古典的なソフトウェアエコロジーと機械学習モデルを新世代の異種チップに移植することにより、産業界や大学の科学研究向けに、より高速で使いやすいデータサイエンスコンピューティング製品を提供します。その製品は、数十の大規模産業で使用されています。シナリオまたは大手科学研究会社によって使用されます。

公式ウェブサイトにアクセスしてください:https://openbayes.com/

MLC.AI コミュニティは、2022 年 6 月に設立されました。Apache TVM の主な発明者であり、機械学習の分野で有名な若い学者である Chen Tianqi がチームを率いて、主要な要素とコアを体系的に紹介する MLC オンラインコースを立ち上げました。機械学習コンパイルの概念。

2022 年 11 月、MLC.AI コミュニティボランティアの共同の努力により、最初の完全な TVM 中国語ドキュメントがオンラインで公開され、HyperAI Super Neural 公式 Web サイトで正常にホストされました。これにより、機械学習のコンパイルに関心のある国内開発者にさらに多くの情報を提供できるようになりました。新しいテクノロジーの基礎、つまりドキュメントを学びます。

MLC オンラインコース:https://mlc.ai/

TVM 中国語ドキュメント:https://tvm.hyper.ai/