フルリプレイ | 上海創志/TileAI/Huawei/Advanced Compiler Lab/AI9Stars: AIコンパイラ技術実践の徹底分析

6ヶ月前

AIコンパイラ技術は進化の波が絶えず押し寄せ、新たな探究が次々と生まれ、蓄積され、そして収束しています。こうした背景のもと、第8回Meet AI Compilerは12月27日に開催されます。

このイベントでは、上海イノベーションアカデミー、TileAIコミュニティ、Huawei HiSilicon、Advanced Compiler Lab、AI9Starsから5名の専門家を招き、ソフトウェアスタック設計、オペレーター開発、パフォーマンス最適化に至るまで、バリューチェーン全体にわたる知見を共有いただきました。講演者は、各チームの長年の研究成果に基づき、様々な技術的アプローチの実装方法とトレードオフを実際のシナリオで実演し、抽象的な概念をより具体的な文脈で理解できるようにしました。

最新の研究成果を持ち寄る参加者もいれば、進行中のエンジニアリング上の課題を持ち寄る参加者もいました。ステージ上のプレゼンテーションはどれも魅力的で、ディスカッションも同様に活発でした。休憩時間中の質問、交流、そして活発な議論によって、話題は常に探求され、補足され、発展していきました。共有はもはや一方的なアウトプットではなく、AIコンパイラを中心とした長期的な対話へと徐々に発展していきました。皆がノンストップで語り合う様子は、まさにAIコンパイラファミリーの魅力です。

活動内容のレビュー

共有とレビュー

トピックを共有:TVM FFI: 機械学習システム向けのオープン ABI と FFI

内容紹介：TVM FFIは、機械学習システムにおける断片化されたエコシステムと相互運用性の問題を解決することを目指しています。オープンなABIおよびFFI標準を定義することで、安定したC ABIとDLPackを活用し、ゼロコピーデータ転送を実現し、PyTorchなどのフレームワークと基盤となるコンパイラ間のギャップを埋めます。効率的なクロスランゲージ呼び出しをサポートし、マルチプラットフォームへの適応にかかるエンジニアリングコストを大幅に削減します。

この共有を見ると、次のことが理解できるでしょう。

1. TVM-FFI ユニバーサル標準を学習して、クロス言語 MLsys の開発および保守コストを大幅に削減します。

2. 将来を見据えたモジュール型MLエコシステムを理解し構築する

ビデオを共有する:[2025 AIコンパイラに会う] TVM FFI: 機械学習システム向けのオープンABIとFFI_bilibili

トピックを共有:TileRT: 低レイテンシの大規模モデル推論のためのソフトウェアとハードウェアの探求

内容紹介：大規模モデルは数兆個のパラメータと数百万トークンを超えるシーケンス処理能力を備え、その性能は記録を次々と更新しています。しかし、モデルの究極の計算速度の追求は止まるところを知りません。一方で、リアルタイム意思決定やゲーム理論など、多くの低レイテンシシナリオでは、数秒、あるいは数ミリ秒以内の応答が求められます。一方、大規模モデルのトレーニングにおけるエージェント時代の到来により、極めて長いシーケンスのロールアウト時間が大きなボトルネックとなっています。

このレポートでは、TileRT プロジェクトを紹介し、AI コンパイラ、ランタイム、アーキテクチャ設計の観点から、非常に低いレイテンシで大規模モデル計算を行うソフトウェアスタックを構築する方法を探ります。

この共有を見ると、次のことが理解できるでしょう。

1. 大規模モデルにおける低レイテンシ推論シナリオの背景、重要性、将来の展望を理解する。

2. TileRTの技術的課題と実践経験の共有

ビデオを共有する:[2025 AIコンパイラに出会う] TileRT: 低レイテンシ大規模モデル推論のためのソフトウェアとハードウェアの探究_bilibili_

トピックを共有:PyPTO: ホワイトボックスコンパイルに基づいて融合演算子を開発するためのフレームワーク。

内容紹介：このプレゼンテーションでは、Huaweiが新たにリリースした統合型オペレータ開発フレームワークPyPTOに焦点を当てます。Tensor/Tileプログラミングパラダイムをベースとし、インコアSRAM管理、クロスプラットフォームPTO命令セット、MPMDランタイムといった技術に着目し、Human-In-The-Loopチューニングとホワイトボックスコンパイルを組み合わせることで、高性能と使いやすさのバランスを実現しています。

この共有を見ると、次のことが理解できるでしょう。

1. SIMD アーキテクチャ用にネイティブに設計された融合演算子開発フレームワークである PyPTO の設計哲学とコアアーキテクチャを習得します。

2. ユーザーの専門的な経験を活用することに重点を置いた PyPTO のホワイトボックスコンパイル哲学と、Human-In-The-Loop 最適化の本質を習得します。

3. PyPTO が提供する視覚化ツールを使用して、Ascend プラットフォーム上で高性能な融合演算子を迅速に開発するプロセス全体を習得します。

ビデオを共有する:[2025 AIコンパイラに出会う] PyPTO: ホワイトボックスコンパイルに基づく融合演算子開発フレームワーク_bilibili_

トピックを共有:Tritonコンパイラのコンパイル最適化プラクティス

内容紹介：このプレゼンテーションでは、Tritonコンパイラの最適化手法に焦点を当て、Tritonの言語とコンパイラの構造、エコシステムの進化、そしてオペレータライブラリの開発手法を体系的に紹介します。また、CPU、GPU、NPUを含む複数のアーキテクチャにおける主要な最適化手法についても深く掘り下げ、高性能な統合オペレータシステムを構築するための完全なパスを示します。

この共有を見ると、次のことが理解できるでしょう。

1. トリトンエコシステムの最新動向

2. 複数のアーキテクチャ（CPU/GPU/NPU）におけるTritonコンパイラの主要な最適化手法

ビデオを共有する:[2025 AIコンパイラに出会う] Tritonコンパイラのコンパイル最適化プラクティス_ビリビリ_ビリビリ

トピックを共有:AutoTriton: 強化学習による大規模モデルのためのTriton演算子最適化手法の探究

内容紹介：CUDAのような言語を用いて効率的なカーネルを作成することは、パフォーマンスエンジニアの専門分野です。Tritonのようなプログラミングフレームワークの登場により、カーネルのプログラミング性は飛躍的に向上しました。しかしながら、開発者は依然として主要なパラメータを手動で設定する必要があり、パフォーマンスの移植性と幅広い適用範囲が制限されています。本レポートでは、大規模演算子生成のためのベンチマークとモデルの調査結果を紹介し、演算子最適化における大規模モデルの大きな可能性について考察します。

この共有を見ると、次のことが理解できるでしょう。

1. 大規模モデルエンパワーメント演算子最適化における関連研究と最新の進歩

2. オペレータ最適化における大規模モデルの主要技術

ビデオを共有する:[2025 AIコンパイラに出会う] AutoTriton: 強化学習による大規模モデルのためのTriton演算子最適化手法の探究_bilibili_

スポンサーとパートナー

HyperAI (hyper.ai) は、国際的にリードする人工知能と高性能コンピューティングのコミュニティです。業界情報レポート、データセットの高速ダウンロード、オンラインチュートリアルのデモンストレーション、人気モデルのパフォーマンス評価、最先端の論文推奨、価値の高い結果の解釈、トップカンファレンスカレンダーの統合など、一連のサービスを提供することで、世界のデータサイエンスおよび人工知能業界の開発者や愛好家が学び、理解し、実践できるように支援し、コミュニティとともに人工知能の未来を築くことを目指しています。

公式ウェブサイトにアクセスしてください:https://hyper.ai/

OpenBayes は中国の大手ハイパフォーマンスコンピューティングサービスプロバイダーです古典的なソフトウェアエコロジーと機械学習モデルを新世代の異種チップに移植することにより、産業界や大学の科学研究向けに、より高速で使いやすいデータサイエンスコンピューティング製品を提供します。その製品は、数十の大規模産業で使用されています。シナリオまたは大手科学研究会社によって使用されます。

公式ウェブサイトにアクセスしてください:https://openbayes.com/

MLC.AI コミュニティは、2022 年 6 月に設立されました。Apache TVM の主な発明者であり、機械学習の分野で有名な若い学者である Chen Tianqi がチームを率いて、主要な要素とコアを体系的に紹介する MLC オンラインコースを立ち上げました。機械学習コンパイルの概念。

2022 年 11 月、MLC.AI コミュニティボランティアの共同の努力により、最初の完全な TVM 中国語ドキュメントがオンラインで公開され、HyperAI Super Neural 公式 Web サイトで正常にホストされました。これにより、機械学習のコンパイルに関心のある国内開発者にさらに多くの情報を提供できるようになりました。新しいテクノロジーの基礎、つまりドキュメントを学びます。

MLC オンラインコース:https://mlc.ai/

TVM 中国語ドキュメント:https://tvm.hyper.ai/

上海イノベーションアカデミーは、トップクラスの大学、有力企業、研究機関が共同で設立した新しいタイプの人材育成機関です。「学生中心、最先端研究」という育成理念を掲げ、優れた教員陣、卓越した研修制度、そして卓越したサポート体制を通じて、中国独自のAIリーダーシップ人材育成プログラムを構築しています。中国におけるAI人材の育成と、世界クラスの人工知能イノベーションハブの構築に尽力しています。

イベントサポート

フルリプレイ | 上海創志/TileAI/Huawei/Advanced Compiler Lab/AI9Stars: AIコンパイラ技術実践の徹底分析

6ヶ月前

活動内容のレビュー

共有とレビュー

トピックを共有:TVM FFI: 機械学習システム向けのオープン ABI と FFI

この共有を見ると、次のことが理解できるでしょう。

1. TVM-FFI ユニバーサル標準を学習して、クロス言語 MLsys の開発および保守コストを大幅に削減します。

2. 将来を見据えたモジュール型MLエコシステムを理解し構築する

ビデオを共有する:[2025 AIコンパイラに会う] TVM FFI: 機械学習システム向けのオープンABIとFFI_bilibili

トピックを共有:TileRT: 低レイテンシの大規模モデル推論のためのソフトウェアとハードウェアの探求

この共有を見ると、次のことが理解できるでしょう。

1. 大規模モデルにおける低レイテンシ推論シナリオの背景、重要性、将来の展望を理解する。

2. TileRTの技術的課題と実践経験の共有

ビデオを共有する:[2025 AIコンパイラに出会う] TileRT: 低レイテンシ大規模モデル推論のためのソフトウェアとハードウェアの探究_bilibili_

トピックを共有:PyPTO: ホワイトボックスコンパイルに基づいて融合演算子を開発するためのフレームワーク。

この共有を見ると、次のことが理解できるでしょう。

1. SIMD アーキテクチャ用にネイティブに設計された融合演算子開発フレームワークである PyPTO の設計哲学とコアアーキテクチャを習得します。

2. ユーザーの専門的な経験を活用することに重点を置いた PyPTO のホワイトボックスコンパイル哲学と、Human-In-The-Loop 最適化の本質を習得します。

3. PyPTO が提供する視覚化ツールを使用して、Ascend プラットフォーム上で高性能な融合演算子を迅速に開発するプロセス全体を習得します。

ビデオを共有する:[2025 AIコンパイラに出会う] PyPTO: ホワイトボックスコンパイルに基づく融合演算子開発フレームワーク_bilibili_

トピックを共有:Tritonコンパイラのコンパイル最適化プラクティス

この共有を見ると、次のことが理解できるでしょう。

1. トリトンエコシステムの最新動向

2. 複数のアーキテクチャ（CPU/GPU/NPU）におけるTritonコンパイラの主要な最適化手法

ビデオを共有する:[2025 AIコンパイラに出会う] Tritonコンパイラのコンパイル最適化プラクティス_ビリビリ_ビリビリ

トピックを共有:AutoTriton: 強化学習による大規模モデルのためのTriton演算子最適化手法の探究

この共有を見ると、次のことが理解できるでしょう。

1. 大規模モデルエンパワーメント演算子最適化における関連研究と最新の進歩

2. オペレータ最適化における大規模モデルの主要技術

ビデオを共有する:[2025 AIコンパイラに出会う] AutoTriton: 強化学習による大規模モデルのためのTriton演算子最適化手法の探究_bilibili_

スポンサーとパートナー

公式ウェブサイトにアクセスしてください:https://hyper.ai/

公式ウェブサイトにアクセスしてください:https://openbayes.com/

MLC オンラインコース:https://mlc.ai/

TVM 中国語ドキュメント:https://tvm.hyper.ai/

フルリプレイ | 上海創志/TileAI/Huawei/Advanced Compiler Lab/AI9Stars: AIコンパイラ技術実践の徹底分析

活動内容のレビュー

スポンサーとパートナー

イベントサポート

フルリプレイ | 上海創志/TileAI/Huawei/Advanced Compiler Lab/AI9Stars: AIコンパイラ技術実践の徹底分析

活動内容のレビュー

スポンサーとパートナー

イベントサポート

関連ニュース

AIが118個の新たな系外惑星を発見しました！ウォーリック大学の研究チームは、惑星の存在シナリオと誤検出シナリオを1対1で比較できるRAVENというシステムを提案しました。

テンセントがHy-MT1.5翻訳モデルをオープンソース化：440MBで最高レベルの翻訳能力を実現。MITがMathNetを共同リリース：27,000の実際のオリンピック数学問題を網羅したマルチモーダル数学推論ベンチマーク。

わずか3秒の音声で「ナレーションの自由」を実現：Mistralのオープンソース音声モデルVoxtral-4B-TTS-2603。データ品質の新たなベンチマークを設定：Sutra 10B事前学習。

論文週間レポート｜Microsoft MAI-Thinkingは純粋な強化学習の自己進化を探求し、AIME精度97%を達成。VLM³は、アーキテクチャの変更なしにプレーンテキスト座標を使用して3Dタスクの汎化を実現…今週の最先端AI論文の概要

フルリプレイ | 上海創志/TileAI/Huawei/Advanced Compiler Lab/AI9Stars: AIコンパイラ技術実践の徹底分析

活動内容のレビュー

スポンサーとパートナー

イベントサポート

関連ニュース

AIが118個の新たな系外惑星を発見しました！ウォーリック大学の研究チームは、惑星の存在シナリオと誤検出シナリオを1対1で比較できるRAVENというシステムを提案しました。

テンセントがHy-MT1.5翻訳モデルをオープンソース化：440MBで最高レベルの翻訳能力を実現。MITがMathNetを共同リリース：27,000の実際のオリンピック数学問題を網羅したマルチモーダル数学推論ベンチマーク。

わずか3秒の音声で「ナレーションの自由」を実現：Mistralのオープンソース音声モデルVoxtral-4B-TTS-2603。データ品質の新たなベンチマークを設定：Sutra 10B事前学習。

論文週間レポート｜Microsoft MAI-Thinkingは純粋な強化学習の自己進化を探求し、AIME精度97%を達成。VLM³は、アーキテクチャの変更なしにプレーンテキスト座標を使用して3Dタスクの汎化を実現…今週の最先端AI論文の概要

関連ニュース

AIが118個の新たな系外惑星を発見しました！ウォーリック大学の研究チームは、惑星の存在シナリオと誤検出シナリオを1対1で比較できるRAVENというシステムを提案しました。

テンセントがHy-MT1.5翻訳モデルをオープンソース化：440MBで最高レベルの翻訳能力を実現。MITがMathNetを共同リリース：27,000の実際のオリンピック数学問題を網羅したマルチモーダル数学推論ベンチマーク。

わずか3秒の音声で「ナレーションの自由」を実現：Mistralのオープンソース音声モデルVoxtral-4B-TTS-2603。データ品質の新たなベンチマークを設定：Sutra 10B事前学習。

論文週間レポート｜Microsoft MAI-Thinkingは純粋な強化学習の自己進化を探求し、AIME精度97%を達成。VLM³は、アーキテクチャの変更なしにプレーンテキスト座標を使用して3Dタスクの汎化を実現…今週の最先端AI論文の概要

関連ニュース

AIが118個の新たな系外惑星を発見しました！ウォーリック大学の研究チームは、惑星の存在シナリオと誤検出シナリオを1対1で比較できるRAVENというシステムを提案しました。

テンセントがHy-MT1.5翻訳モデルをオープンソース化：440MBで最高レベルの翻訳能力を実現。MITがMathNetを共同リリース：27,000の実際のオリンピック数学問題を網羅したマルチモーダル数学推論ベンチマーク。

わずか3秒の音声で「ナレーションの自由」を実現：Mistralのオープンソース音声モデルVoxtral-4B-TTS-2603。データ品質の新たなベンチマークを設定：Sutra 10B事前学習。

論文週間レポート｜Microsoft MAI-Thinkingは純粋な強化学習の自己進化を探求し、AIME精度97%を達成。VLM³は、アーキテクチャの変更なしにプレーンテキスト座標を使用して3Dタスクの汎化を実現…今週の最先端AI論文の概要

Command Palette

フルリプレイ | 上海創志/TileAI/Huawei/Advanced Compiler Lab/AI9Stars: AIコンパイラ技術実践の徹底分析

活動内容のレビュー

スポンサーとパートナー

イベントサポート

Command Palette

フルリプレイ | 上海創志/TileAI/Huawei/Advanced Compiler Lab/AI9Stars: AIコンパイラ技術実践の徹底分析

活動内容のレビュー

スポンサーとパートナー

イベントサポート

関連 ニュース

AIが118個の新たな系外惑星を発見しました！ウォーリック大学の研究チームは、惑星の存在シナリオと誤検出シナリオを1対1で比較できるRAVENというシステムを提案しました。

テンセントがHy-MT1.5翻訳モデルをオープンソース化：440MBで最高レベルの翻訳能力を実現。MITがMathNetを共同リリース：27,000の実際のオリンピック数学問題を網羅したマルチモーダル数学推論ベンチマーク。

わずか3秒の音声で「ナレーションの自由」を実現：Mistralのオープンソース音声モデルVoxtral-4B-TTS-2603。データ品質の新たなベンチマークを設定：Sutra 10B事前学習。

論文週間レポート｜Microsoft MAI-Thinkingは純粋な強化学習の自己進化を探求し、AIME精度97%を達成。VLM³は、アーキテクチャの変更なしにプレーンテキスト座標を使用して3Dタスクの汎化を実現…今週の最先端AI論文の概要

Command Palette

フルリプレイ | 上海創志/TileAI/Huawei/Advanced Compiler Lab/AI9Stars: AIコンパイラ技術実践の徹底分析

活動内容のレビュー

スポンサーとパートナー

イベントサポート

関連 ニュース

AIが118個の新たな系外惑星を発見しました！ウォーリック大学の研究チームは、惑星の存在シナリオと誤検出シナリオを1対1で比較できるRAVENというシステムを提案しました。

テンセントがHy-MT1.5翻訳モデルをオープンソース化：440MBで最高レベルの翻訳能力を実現。MITがMathNetを共同リリース：27,000の実際のオリンピック数学問題を網羅したマルチモーダル数学推論ベンチマーク。

わずか3秒の音声で「ナレーションの自由」を実現：Mistralのオープンソース音声モデルVoxtral-4B-TTS-2603。データ品質の新たなベンチマークを設定：Sutra 10B事前学習。

論文週間レポート｜Microsoft MAI-Thinkingは純粋な強化学習の自己進化を探求し、AIME精度97%を達成。VLM³は、アーキテクチャの変更なしにプレーンテキスト座標を使用して3Dタスクの汎化を実現…今週の最先端AI論文の概要

関連 ニュース

AIが118個の新たな系外惑星を発見しました！ウォーリック大学の研究チームは、惑星の存在シナリオと誤検出シナリオを1対1で比較できるRAVENというシステムを提案しました。

テンセントがHy-MT1.5翻訳モデルをオープンソース化：440MBで最高レベルの翻訳能力を実現。MITがMathNetを共同リリース：27,000の実際のオリンピック数学問題を網羅したマルチモーダル数学推論ベンチマーク。

わずか3秒の音声で「ナレーションの自由」を実現：Mistralのオープンソース音声モデルVoxtral-4B-TTS-2603。データ品質の新たなベンチマークを設定：Sutra 10B事前学習。

論文週間レポート｜Microsoft MAI-Thinkingは純粋な強化学習の自己進化を探求し、AIME精度97%を達成。VLM³は、アーキテクチャの変更なしにプレーンテキスト座標を使用して3Dタスクの汎化を実現…今週の最先端AI論文の概要

関連 ニュース

AIが118個の新たな系外惑星を発見しました！ウォーリック大学の研究チームは、惑星の存在シナリオと誤検出シナリオを1対1で比較できるRAVENというシステムを提案しました。

テンセントがHy-MT1.5翻訳モデルをオープンソース化：440MBで最高レベルの翻訳能力を実現。MITがMathNetを共同リリース：27,000の実際のオリンピック数学問題を網羅したマルチモーダル数学推論ベンチマーク。

わずか3秒の音声で「ナレーションの自由」を実現：Mistralのオープンソース音声モデルVoxtral-4B-TTS-2603。データ品質の新たなベンチマークを設定：Sutra 10B事前学習。

論文週間レポート｜Microsoft MAI-Thinkingは純粋な強化学習の自己進化を探求し、AIME精度97%を達成。VLM³は、アーキテクチャの変更なしにプレーンテキスト座標を使用して3Dタスクの汎化を実現…今週の最先端AI論文の概要

関連ニュース

関連ニュース

関連ニュース

関連ニュース