Command Palette
Search for a command to run...
Aperçu De l'événement | AI Computing, TileRT, Tencent, Huawei Et AI Computing Innovation Unissent Leurs Forces Pour Explorer l'optimisation Collaborative Multiniveaux

De la chaleur étouffante de Pékin au froid glacial de Shanghai, le salon technique Meet AI Compiler, organisé par HyperAI, accompagne l'écosystème de la compilation IA depuis trois ans. Durant ces trois années, nous avons vu d'innombrables ingénieurs et chercheurs partager leurs découvertes de pointe et échanger leurs points de vue techniques, contribuant ainsi à l'évolution constante des technologies de compilation à l'ère des grands modèles et repoussant sans cesse les limites de l'optimisation des performances, de l'adaptation à l'hétérogénéité et de la mise en œuvre technique.
La technologie évolue constamment, et nos efforts pour nous connecter aux innovations de pointe n'ont jamais cessé. Le 1er août, le neuvième salon technique Meet AI Compiler prendra à nouveau la mer à Pékin !Dans ce numéro, nous avons invité plusieurs experts de l'Académie d'intelligence artificielle, de l'équipe TileRT, de Tencent, de Huawei Ascend et de Zhiyuan Innovation. Ils mèneront une analyse approfondie de l'extension de langage FlagTree, de l'inférence à très faible latence de TileRT, de l'optimisation des opérateurs de FalconGEMM, de la co-construction open source de la représentation intermédiaire AscendNPU et des pratiques d'application de l'intelligence incarnée. L'objectif est de présenter un panorama de l'évolution collaborative des compilateurs d'IA à différents niveaux : expression du langage, calcul des opérateurs, exécution de l'inférence et application à des scénarios.
Comme toujours, les places sont limitées, alors réservez vite ! Prenez vos places dès maintenant, et on se voit là-bas !
Détails de l'événement
⏰ Date et heure : 1er août (samedi) de 13h30 à 17h30
📍 Adresse : Salle multifonctionnelle, 5e étage, bâtiment 12, rue Zhongguancun, district de Haidian, Pékin
👬 Nombre de participants : 150 (Places limitées, veuillez vous inscrire au plus vite)
🙌🏻 Lien d'inscription :https://hdxu.cn/1KkIr
Scannez le code QR et notez « AI Compiler » pour rejoindre le groupe d'événements :

Invités et ordre du jour
Session 1 : Conférenciers invités

Partager le sujet:FlagTree : Extensions de langage Triton-TLE, backend IR Tile et pratiques d’optimisation du compilateur
Contenu:Cette présentation sera divisée en trois parties. La première expose les défis rencontrés par Triton et explique comment TLE (Tracked Operators) expose progressivement les détails matériels à travers trois niveaux d'extensions de langage, permettant ainsi un meilleur équilibre entre portabilité, maintenabilité et performances. La deuxième partie se concentre sur la pratique d'ingénierie de l'intégration de Tile IR dans l'arbre d'instructions FlagTree du compilateur Triton, en expliquant comment ce nouveau type de backend de compilation élargit encore le champ d'optimisation des performances des opérateurs Triton. La troisième partie analysera systématiquement les principales techniques d'optimisation du compilateur, telles que l'optimisation de la disposition et le réordonnancement des instructions, en présentant un chemin d'optimisation de compilation complet pour les opérateurs hautes performances inter-puces.
Regardez cette séance de partage et vous apprendrez :
1. Comment TLE contrôle-t-il la mémoire sur puce, comment exprime-t-il les modèles distribués et producteur-consommateur, et comment intègre-t-il le langage natif du fournisseur ?
2. Comment les backends TLE et Tile IR peuvent-ils améliorer les performances maximales des opérateurs de touches Triton ?
3. Comment les techniques d'optimisation du compilateur réduisent la surcharge de transformation de la disposition des données, améliorent l'efficacité d'exécution des instructions et libèrent davantage les performances de l'opérateur Triton.

Partager le sujet:TileRT : La vitesse est intelligence – Exploration computationnelle et co-conception pour l’inférence de grands modèles à très faible latence
Contenu:Avec l'avènement des modèles complexes atteignant des milliards de paramètres et l'avènement de l'ère des agents, une vitesse d'inférence extrême est devenue essentielle pour la prise en charge de flux de tâches complexes et l'exploitation optimale du potentiel du modèle. Cependant, lorsque les systèmes tentent de repousser les limites de latence, les architectures système traditionnelles et les goulots d'étranglement d'exécution se heurtent souvent à des obstacles insurmontables.
Ce rapport présente les dernières explorations de TileRT, démontrant comment construire une pile logicielle pour le calcul de modèles à grande échelle avec une latence ultra-faible, du point de vue des compilateurs d'IA, de l'évolution de l'architecture d'exécution jusqu'à la co-conception modèle-système.
Regardez cette séance de partage et vous apprendrez :
1. La vitesse est une forme d'intelligence : Comprendre pourquoi la « vitesse » devient progressivement un indicateur clé pour l'aspect inférence des grands modèles à l'ère de l'agentique.
2. Exploration de l'architecture système : Cette section présente l'évolution architecturale de TileRT, en utilisant GLM-5 comme exemple pour expliquer comment améliorer significativement les performances d'inférence en restructurant la planification des calculs sous-jacente.
3. Pratique de co-conception et de production de modèles et de systèmes : partage de la manière de surmonter le goulot d'étranglement de la vitesse de 1000 TPS dans l'inférence par lot unique pour les modèles à mille milliards de paramètres grâce à la conception conjointe des modèles et des systèmes.

Partager le sujet:FalconGEMM : Dépasser les performances matérielles grâce à la multiplication matricielle à plus faible complexité
Contenu:La multiplication matricielle (GEMM) est au cœur de la puissance de calcul nécessaire à l'entraînement et à l'inférence de grands modèles. Cependant, la taille des modèles augmentant exponentiellement, la complexité O(N³) de l'algorithme standard se rapproche constamment des limites physiques du matériel. Comment maintenir les performances lorsque la puissance de calcul des puces atteint ses limites est devenu un enjeu majeur pour les infrastructures dédiées aux grands modèles. Il est crucial de comprendre les principes, la valeur et les défis d'ingénierie liés à la multiplication matricielle à faible complexité, afin de dépasser les limites de performance dans un contexte d'optimisation des opérateurs atteignant son apogée. Depuis plus de 50 ans, la communauté mathématique explore une voie : la multiplication matricielle à faible complexité (LCMA, comme Strassen et AlphaTensor). Cette approche consiste à privilégier les accès mémoire et les additions au détriment de moins de multiplications, permettant ainsi de dépasser les limites matérielles. Toutefois, trois défis d'ingénierie majeurs – l'augmentation des accès mémoire, le choix de l'algorithme et la portabilité multiplateforme – ont longtemps maintenu cette approche au stade théorique.
Ce rapport présente le projet FalconGEMM, qui transforme systématiquement LCMA, initialement théorique, en une pile logicielle de qualité professionnelle, en trois étapes : génération de code automatisée par le compilateur, optimisation de l’accès mémoire par fusion parallèle de groupes et prise de décision algorithmique basée sur des modèles de performance. Il surpasse également les bibliothèques officielles de référence sur diverses plateformes GPU/CPU et avec des charges de travail réelles de grande envergure.
Regardez cette séance de partage et vous apprendrez :
1. Comprendre les principes, la valeur et les défis d'ingénierie de la multiplication matricielle à faible complexité, en dépassant le plafond de performance lorsque l'optimisation de l'opérateur atteint ses limites.
- Les solutions techniques et les pratiques multiplateformes de FalconGEMM.

Partager le sujet:AscendNPU IR : La plateforme de compilation est open source et prend en charge l’intégration multilingue avec Ascend.
Contenu:AscendNPU IR, le composant du compilateur Ascend, est désormais entièrement open source. En tant que couche d'accès MLIR permettant à Ascend de s'intégrer à des frameworks de programmation tiers, il offre une intégration flexible, une expression complète et des capacités d'optimisation de compilation compatibles avec Ascend. Il prend également en charge plusieurs DSL frontaux afin d'améliorer les performances des opérateurs Ascend.
Regardez cette séance de partage et vous apprendrez :
1. Comprendre l'architecture technique globale et la philosophie de conception d'AscendNPU IR.
2. Comprendre les nouvelles fonctionnalités de l'Ascend NPU IR pour l'extension Ascend 950.
3. Comprendre les activités de développement de la communauté AscendNPU IR et comment y participer.

Partager le sujet:Un compilateur d'IA à usage général pour le domaine de l'intelligence incarnée
Contenu:Ce rapport présente un compilateur à usage général pour l'intelligence incarnée et les grands modèles multimodaux, axé sur la capture, l'exportation, le regroupement, la compilation, le déploiement en temps réel et l'optimisation des performances des pipelines d'algorithmes complets, abordant les questions clés liées à la livraison en périphérie, au fonctionnement stable, à l'adaptation inter-frameworks et à la mise à l'échelle technique des modèles de robots.
Regardez cette séance de partage et vous apprendrez :
1. Comprendre les principaux défis qui distinguent le déploiement de modèles d'intelligence incarnée du déploiement de modèles traditionnels, notamment la complexité de l'ingénierie et les coûts de maintenance engendrés par la multiplicité des modèles, des cadres et des pipelines à plusieurs étapes.
2. Maîtriser comment un compilateur à usage général peut capturer le flux complet de l'algorithme grâce au traçage dynamique et organiser des modules tels que le prétraitement, le modèle VLA, le LLM et le post-traitement dans un modèle DAG compilable, déployable et déployable.
3. Comprendre comment la compilation groupée et une architecture d'exécution unifiée prennent en charge différents backends, en tirant parti des avantages des différentes puces tout en maintenant une chaîne de livraison unifiée.
4. Comprendre le paradigme d'interface entre le compilateur de domaine incarné et la plateforme de distribution.
Organisateurs et partenaires

HyperAI (hyper.ai) est une communauté internationale de premier plan en matière d'intelligence artificielle et de calcul haute performance.Son objectif est d'aider les développeurs et les passionnés de l'industrie mondiale de la science des données et de l'intelligence artificielle à apprendre, comprendre et pratiquer en fournissant une série de services tels que des rapports d'information sur l'industrie, des téléchargements accélérés d'ensembles de données, des démonstrations de didacticiels en ligne, des évaluations de performances de modèles populaires, des recommandations de documents de pointe, des interprétations de résultats de grande valeur et une intégration du calendrier des conférences de premier plan, et de construire l'avenir de l'intelligence artificielle avec la communauté.
Visitez le site officiel :https://hyper.ai/

OpenBayes Bayesian Computing est un fournisseur leader de services de calcul haute performance en ChineEn greffant des écosystèmes logiciels classiques et des modèles d’apprentissage automatique sur des puces hétérogènes de nouvelle génération, il fournit aux entreprises industrielles et à la recherche scientifique universitaire des produits de calcul de science des données plus rapides et plus faciles à utiliser. Ses produits ont été adoptés par des dizaines de grands scénarios industriels ou d’instituts de recherche scientifique de premier plan.
Visitez le site officiel :https://openbayes.com/

La communauté MLC.AI a été créée en juin 2022. Chen Tianqi, le principal inventeur d'Apache TVM et un jeune chercheur bien connu dans le domaine de l'apprentissage automatique, a dirigé l'équipe pour lancer le cours en ligne MLC, qui a systématiquement présenté les éléments clés et les concepts de base de la compilation de l'apprentissage automatique.
En novembre 2022, grâce aux efforts conjoints des bénévoles de la communauté MLC.AI, la première documentation chinoise complète de TVM a été lancée et hébergée avec succès sur le site Web officiel d'HyperAI, fournissant ainsi aux développeurs nationaux intéressés par la compilation d'apprentissage automatique les paramètres de base pour accéder et apprendre une nouvelle technologie - la documentation.
Cours en ligne MLC :https://mlc.ai/
Documentation chinoise de TVM :https://tvm.hyper.ai/
soutien aux lieux d'événements
Le lieu de cet événement a été mis à disposition par le Comité administratif de la Cité des sciences de Zhongguancun et la société Beijing Zhongguancun Science City Innovation Development Co., Ltd.
Ligne active :Scannez le code QR pour accéder à l'inscription à l'événement

Scannez le code QR et notez « AI Compiler » pour rejoindre le groupe de l'événement

Compte tenu de la capacité limitée de la salle, seules 150 places sont disponibles. Nous vous recommandons de vous inscrire au plus vite afin de garantir votre place.
Rendez-vous le 1er août, de 13h30 à 17h30 !








