HyperAI

Compte-rendu De L'événement | AMD/Muxi Integrated Circuit/ByteDance/Université De Pékin Analyse Approfondie De L'écosystème De Compilation Unifié Sur L'ensemble Du Matériel

特色图像

À l'ère des grands modèles, les compilateurs sont à nouveau sous le feu des projecteurs. Le 5 juillet, HyperAI a organisé le 7e Salon des technologies des compilateurs d'IA à Pékin Zhongguancun, axé sur les communications distribuées, les piles de compilation GPU domestiques, la conception de nouveaux langages de programmation et la construction d'écosystèmes open source. Des experts confirmés en compilateurs d'IA d'AMD, de Muxi Integrated Circuits, de ByteDance et de l'Université de Pékin ont été invités à présenter systématiquement les mécanismes clés et les détails d'implémentation de leurs projets respectifs, en fonction de leurs axes techniques respectifs, qui sont « réellement en cours et ont permis de réaliser des avancées significatives ».

Suivez le compte public WeChat « HyperAI Super Neuro » et répondez au mot-clé « 0705 AI Compiler » pour obtenir le discours PPT du conférencier autorisé.

Lors de la table ronde, Feng Siyuan, professeur adjoint au Shanghai Chuangzhi College et à Apache TVM PMC, a animé la discussion. Il a abordé le thème de « l'écosystème de compilation unifié sur le matériel » et a discuté en profondeur avec quatre intervenants de la collaboration et des défis des différentes plateformes matérielles.

Cet événement n'a pas seulement mis en lumière les connaissances acquises par les intervenants sur scène, mais les interactions avec les partenaires de la communauté ont été tout aussi passionnantes. Qu'il s'agisse de questions approfondies sur des détails techniques, de discussions approfondies sur le choix des solutions ou d'échanges libres pendant les pauses-café, chacun a partagé ses expériences et ses points de vue sans réserve, et a eu des échanges chaleureux et sincères sur les problèmes pratiques rencontrés. Cette atmosphère de partage contribue à l'esprit de notre communauté technique ! Ce salon technique s'est terminé en beauté.

Examen du contenu de l'événement

Ce qui suit est une brève introduction au contenu de partage et à l’article de partage lui-même.

Partager le sujet:Aider la communauté open source, analyser le compilateur AMD Triton

Contenu:Triton est un langage de programmation proposé par OpenAI, conçu pour simplifier le développement de noyaux GPU hautes performances. Il est largement utilisé dans le framework d'entraînement au raisonnement LLM. Les utilisateurs peuvent implémenter un noyau GPU en développant du code Python Triton sans se soucier des détails de l'architecture GPU sous-jacente, ce qui simplifie considérablement le développement de code GPU.

AMD a implémenté le compilateur Triton sur les plates-formes GPU pertinentes et l'a contribué à la communauté open source Triton.Pour optimiser les performances du code GPU, il est essentiel de comprendre le compilateur Triton et son rôle dans l'optimisation des performances du noyau. Ce partage détaillera le compilateur AMD Triton et présentera comment il améliore les performances de Triton sur les plateformes GPU AMD.

Regardez cette séance de partage et vous apprendrez :

1. Introduction à l'architecture GPU AMD

2. Derniers travaux d'AMD GPU sur la communauté open source Triton

Cliquez pour voir l'enregistrement de partage complet :

Zhang Ning, architecte IA AMD : Analyse du compilateur AMD Triton sous différents angles pour contribuer à la création d'un écosystème open source

Partager le sujet:Pratique de l'application TVM sur le GPU Muxi

Contenu:Cette discussion se concentre principalement sur la manière d’appliquer TVM sur le GPU Muxi.Pour le GPU Muxi, des opérateurs hautes performances sont générés autour de TVM pour permettre des cadres d'IA grand public basés sur TVM.

Regardez cette séance de partage et vous apprendrez :

1. Problèmes pouvant survenir lors de l'adaptation du TVM au GPGPU domestique

2. Quels sont les avantages du TVM sur le GPGPU national et quels aspects nécessitent de nouvelles avancées ?

3. À propos de l'état de support des compilateurs d'IA tels que TVM sur GPGPU national, et discuter de la manière d'étendre l'écosystème associé

Cliquez pour voir l'enregistrement de partage complet :

Des caractéristiques architecturales à la construction de l'écosystème, Muxi Dong Zhaohua analyse en profondeur la pratique d'application du TVM sur les GPU domestiques

Partager le sujet:Triton-distributed : programmation Python native pour une communication haute performance

Contenu:L'échelle des puces individuelles atteint progressivement un goulot d'étranglement. Les accélérateurs uniques ne peuvent pas prendre en charge l'entraînement et le raisonnement de modèles de langage volumineux. Les systèmes distribués sont devenus une exigence rigide. Le calcul, l'accès à la mémoire et la communication sont simultanés dans les systèmes distribués, mais les frameworks existants sont pour la plupart optimisés indépendamment, ce qui rend difficile la mise à disposition collaborative des performances des clusters.

Ce rapport propose Triton-distributed (extension du compilateur Triton), qui est le premier à préconiser l'optimisation native par chevauchement des charges de travail d'IA distribuées et couvre l'optimisation multi-framework.En intégrant les primitives de communication OpenSHMEM, en utilisant le compilateur pour réaliser l'optimisation conjointe de trois activités, en démontrant l'application de la technologie qui se chevauche et des méthodes de programmation à nœud unique/multiple, le code généré utilise pleinement les ressources hétérogènes dans un environnement de cluster, surpassant le code optimisé manuellement, et le coût de développement est nettement inférieur à celui de CUDA/C++.

Regardez cette séance de partage et vous apprendrez :

1. La dernière technologie distribuée par Triton

2. Défis de la programmation des communications à partir de Python

3. Orientation future de la compilation distribuée

Cliquez pour voir l'enregistrement de partage complet :

Les performances d'entraînement ont été considérablement améliorées. Zheng Size, de Bytedance, explique le framework distribué Triton pour une communication distribuée efficace et une intégration informatique pour les grands modèles.

Partager le sujet:TileLang : le développement des opérateurs n'est plus un « processus de réflexion » et les performances sont toujours en ligne

Contenu:Cette fois, nous apportons un nouveau langage de programmation d'opérateur - TileLang.Grâce à des primitives explicites au niveau des tuiles et à des mécanismes de raisonnement automatique, il permet aux développeurs d'implémenter efficacement des opérateurs neuronaux sensibles au matériel, en équilibrant le contrôle et l'efficacité du développement.

Regardez cette séance de partage et vous apprendrez :

1. Maîtriser un langage de développement d'opérateurs hautes performances plus simple et plus efficace

2. Comprendre le concept de conception de base et les avantages techniques de TileLang

Cliquez pour voir l'enregistrement de partage complet :

Les primitives au niveau des tuiles sont intégrées à des mécanismes de raisonnement automatique. L'initiateur de la communauté TileAI analyse en profondeur la technologie de base et les avantages de TileLang.

2025 Meet AI Compiler · Restez à l'écoute

De 2023 à 2025, nous avons organisé avec succès sept rencontres hors ligne à Pékin, Shanghai et Shenzhen, rassemblant des milliers de praticiens expérimentés et de passionnés, et progressivement établi un riche écosystème communautaire. En 2025, nous poursuivrons le développement de la carte urbaine du compilateur d'IA et invitons chaleureusement toutes les entreprises et tous les partenaires communautaires à participer à la co-création sous diverses formes, que ce soit en recommandant des conférenciers ou en proposant des lieux et des pauses-café. Nous les accueillons chaleureusement.

Travaillons ensemble pour créer la communauté de compilateurs d'IA la plus active de Chine ! Enfin, partageons une photo de groupe de la scène ❤️

Organisateurs et partenaires

En tant que communauté internationale de premier plan en matière d'intelligence artificielle et de calcul haute performance, HyperAI (hyper.ai) vise à aider les développeurs et les passionnés de l'industrie mondiale de la science des données et de l'intelligence artificielle à apprendre, comprendre et pratiquer en fournissant une série de services tels que des rapports d'information sur l'industrie, des téléchargements accélérés d'ensembles de données, des démonstrations de didacticiels en ligne, des évaluations de performances de modèles populaires, des recommandations d'articles de pointe, des interprétations de résultats de grande valeur et une intégration du calendrier des conférences de premier plan, et à construire l'avenir de l'intelligence artificielle avec la communauté.

Visitez le site officiel :https://hyper.ai/

OpenBayes Bayesian Computing est un fournisseur leader de services de calcul haute performance en ChineEn greffant des écosystèmes logiciels classiques et des modèles d’apprentissage automatique sur des puces hétérogènes de nouvelle génération, il fournit aux entreprises industrielles et à la recherche scientifique universitaire des produits de calcul de science des données plus rapides et plus faciles à utiliser. Ses produits ont été adoptés par des dizaines de grands scénarios industriels ou d’instituts de recherche scientifique de premier plan.

Visitez le site officiel :https://openbayes.com/

La communauté MLC.AI a été créée en juin 2022. Chen Tianqi, le principal inventeur d'Apache TVM et un jeune chercheur bien connu dans le domaine de l'apprentissage automatique, a dirigé l'équipe pour lancer le cours en ligne MLC, qui a systématiquement présenté les éléments clés et les concepts de base de la compilation de l'apprentissage automatique.

En novembre 2022, grâce aux efforts conjoints des bénévoles de la communauté MLC.AI, la première documentation chinoise complète de TVM a été lancée et hébergée avec succès sur le site Web officiel d'HyperAI, fournissant ainsi aux développeurs nationaux intéressés par la compilation d'apprentissage automatique les paramètres de base pour accéder et apprendre une nouvelle technologie - la documentation.

Cours en ligne MLC :https://mlc.ai/

Documentation chinoise de TVM :https://tvm.hyper.ai/

Fondée en avril 2011, Garage Coffee est l'une des premières entreprises chinoises à se concentrer sur les startups Internet en phase de démarrage. Elle a développé une plateforme de services d'innovation et d'entrepreneuriat ouverte, pratique, complète et à faible coût pour les entrepreneurs en phase de démarrage, autour du concept d'« entrepreneuriat de masse ».

Premier espace de création de la rue de l'entrepreneuriat Zhongguancun à Pékin, Garage Coffee utilise les cafés comme supports interactifs pour offrir aux équipes entrepreneuriales des espaces de travail interactifs et des services d'incubation favorisant le partage, la co-promotion, l'intégration et la coexistence. Garage Coffee est le premier café au monde à vocation entrepreneuriale et le plus influent espace de création national et plateforme internationale d'innovation et d'entrepreneuriat de Chine.

Soutien aux événements

Obtenez le PPT :Suivez le compte public WeChat « HyperAI Super Neuro » et répondez au mot-clé « 0705 AI Compiler » pour obtenir le discours PPT du conférencier autorisé.

Scannez le code QR pour rejoindre le groupe de l'événement⬇️