HyperAI

Im Zeitalter großer Modelle stehen Compiler wieder im Rampenlicht. Am 5. Juli veranstaltete HyperAI den 7. Meet AI Compiler Technology Salon in Peking Zhongguancun. Der Fokus lag dabei auf verteilter Kommunikation, inländischen GPU-Kompilierungsstacks, dem Design neuer Programmiersprachen und dem Aufbau eines Open-Source-Ökosystems. Erfahrene KI-Compiler-Experten von AMD, Muxi Integrated Circuits, ByteDance und der Peking-Universität waren eingeladen, systematisch die wichtigsten Mechanismen und Implementierungsdetails ihrer jeweiligen Projekte rund um ihre jeweiligen technischen Ansätze vorzustellen, die „tatsächlich umgesetzt werden und tatsächlich Erfolge erzielt haben“.

Folgen Sie dem öffentlichen WeChat-Konto „HyperAI Super Neuro“ und antworten Sie auf das Schlüsselwort „0705 AI Compiler“, um die PPT mit der Rede des autorisierten Dozenten zu erhalten.

Feng Siyuan, Assistenzprofessor am Shanghai Chuangzhi College und Apache TVM PMC, moderierte die Roundtable-Sitzung. Er konzentrierte sich auf das Thema „Einheitliches Kompilierungs-Ökosystem für alle Hardware-Plattformen“ und diskutierte ausführlich mit vier Dozenten über die Zusammenarbeit und die Herausforderungen verschiedener Hardwareplattformen.

Bei dieser Veranstaltung ging es nicht nur um den Wissensertrag der Vortragenden auf der Bühne, auch die Interaktion mit den Community-Partnern war gleichermaßen spannend. Ob es um tiefgründige Fragen zu technischen Details, ausführliche Diskussionen zur Lösungsauswahl oder den freien Austausch in den Teepausen ging – alle teilten ihre Erfahrungen und Erkenntnisse ohne Vorbehalt und führten ein herzliches und aufrichtiges Gespräch über die praktischen Probleme, auf die sie gestoßen waren. Diese wechselseitige Atmosphäre trägt dazu bei, unsere technische Community zu stärken! Dieser technische Salon endete perfekt.

Überprüfung der Veranstaltungsinhalte

Nachfolgend finden Sie eine kurze Einführung in die Sharing-Inhalte und den eigentlichen Sharing-Artikel.

Thema teilen:Unterstützung der Open-Source-Community durch Analyse des AMD Triton-Compilers

Inhalt:Triton ist eine von OpenAI vorgeschlagene Programmiersprache, die die Entwicklung leistungsstarker GPU-Kernel vereinfachen soll. Sie wird häufig im gängigen LLM-Reasoning-Trainingsframework eingesetzt. Benutzer können den GPU-Kernel durch die Entwicklung von Python-Triton-Code implementieren, ohne sich um die zugrunde liegenden GPU-Architekturdetails kümmern zu müssen, was den Aufwand der GPU-Codeentwicklung erheblich reduziert.

AMD hat den Triton-Compiler auf relevanten GPU-Plattformen implementiert und ihn der Triton-Open-Source-Community zur Verfügung gestellt.Um die GPU-Codeleistung zu optimieren, müssen Sie den Triton-Compiler und seine Rolle bei der Kernel-Leistungsoptimierung verstehen. In diesem Beitrag wird der AMD Triton-Compiler ausführlich erläutert und erläutert, wie der Compiler die Triton-Leistung auf AMD-GPU-Plattformen verbessert.

Sehen Sie sich diese Sharing-Sitzung an und erfahren Sie:

1. Einführung in die AMD-GPU-Architektur

2. Die neueste Arbeit von AMD GPU in der Triton Open Source Community

Klicken Sie hier, um den vollständigen Freigabedatensatz anzuzeigen:

AMD AI-Architekt Zhang Ning: Analyse des AMD Triton Compilers aus mehreren Perspektiven, um beim Aufbau eines Open-Source-Ökosystems zu helfen

Thema teilen:TVM-Anwendungspraxis auf Muxi GPU

Inhalt:Diese Diskussion konzentriert sich hauptsächlich auf die Anwendung von TVM auf Muxi-GPU.Für Muxi GPU werden Hochleistungsoperatoren rund um TVM generiert, um gängige KI-Frameworks auf Basis von TVM zu ermöglichen.

Sehen Sie sich diese Sharing-Sitzung an und erfahren Sie:

1. Probleme, die bei der Anpassung von TVM an inländische GPGPU auftreten können

2. Welche Vorteile bietet TVM für die inländische GPGPU und in welchen Aspekten sind weitere Durchbrüche erforderlich?

3. Über den Supportstatus von KI-Compilern wie TVM auf inländischem GPGPU und Diskussion über die Erweiterung des zugehörigen Ökosystems

Klicken Sie hier, um den vollständigen Freigabedatensatz anzuzeigen:

Von architektonischen Merkmalen bis hin zum Aufbau von Ökosystemen analysiert Muxi Dong Zhaohua eingehend die Anwendungspraxis von TVM auf inländischen GPUs

Thema teilen:Triton-verteilt: native Python-Programmierung für Hochleistungskommunikation

Inhalt:Die Skalierung einzelner Chips stößt allmählich an ihre Grenzen. Einzelne Beschleuniger können das Training und die Argumentation großer Sprachmodelle nicht unterstützen. Verteilte Systeme sind zu einer zwingenden Anforderung geworden. Berechnung, Speicherzugriff und Kommunikation erfolgen in verteilten Systemen parallel, bestehende Frameworks werden jedoch meist unabhängig voneinander optimiert, was die gemeinsame Bereitstellung von Cluster-Leistung erschwert.

Dieser Bericht schlägt Triton-Distributed (Triton-Compiler-Erweiterung) vor, das als erstes die native überlappende Optimierung verteilter KI-Workloads befürwortet und die Multi-Framework-Optimierung abdeckt.Durch die Integration von OpenSHMEM-Kommunikationsprimitiven und die Verwendung des Compilers zur gemeinsamen Optimierung von drei Aktivitäten sowie die Demonstration der Anwendung überlappender Technologie und Single/Multi-Node-Programmiermethoden nutzt der generierte Code heterogene Ressourcen in einer Clusterumgebung vollständig aus, übertrifft handoptimierten Code und die Entwicklungskosten sind erheblich niedriger als bei CUDA/C++.

Sehen Sie sich diese Sharing-Sitzung an und erfahren Sie:

1. Triton-verteilte neueste Technologie

2. Herausforderungen bei der Programmierung von Kommunikation mit Python

3. Zukünftige Richtung der verteilten Kompilierung

Klicken Sie hier, um den vollständigen Freigabedatensatz anzuzeigen:

Die Trainingsleistung wurde deutlich verbessert. Bytedances Zheng Size erläutert das Triton-verteilte Framework, um eine effiziente verteilte Kommunikation und Computerintegration für große Modelle zu erreichen.

Thema teilen:TileLang: Die Operatorentwicklung ist nicht mehr "hirnzermürbend", und die Leistung ist immer noch online

Inhalt:Dieses Mal bringen wir eine neue Operator-Programmiersprache mit – TileLang.Durch explizite Primitive auf Kachelebene und automatische Schlussfolgerungsmechanismen ermöglicht es Entwicklern, hardwarebewusste neuronale Operatoren effizient zu implementieren und so Kontrolle und Entwicklungseffizienz in Einklang zu bringen.

Sehen Sie sich diese Sharing-Sitzung an und erfahren Sie:

1. Beherrschen Sie eine einfachere und effizientere Hochleistungs-Operator-Entwicklungssprache

2. Verstehen Sie das Kerndesignkonzept und die technischen Vorteile von TileLang

Klicken Sie hier, um den vollständigen Freigabedatensatz anzuzeigen:

Primitive auf Kachelebene sind mit automatischen Schlussfolgerungsmechanismen integriert. Der Initiator der TileAI-Community analysiert eingehend die Kerntechnologie und die Vorteile von TileLang

2025 Lernen Sie AI Compiler kennen · Bleiben Sie dran

Von 2023 bis 2025 veranstalteten wir erfolgreich sieben Offline-Meetups in Peking, Shanghai und Shenzhen, bei denen Tausende erfahrene Praktiker und Enthusiasten zusammenkamen und nach und nach ein reichhaltiges Community-Ökosystem aufgebaut wurde. Im Jahr 2025 werden wir die AI Compiler City Map weiterentwickeln und laden alle Unternehmen und Community-Partner herzlich ein, sich in vielfältiger Form an der gemeinsamen Entwicklung zu beteiligen, sei es durch die Empfehlung von Dozenten oder die Bereitstellung von Veranstaltungsorten und Kaffeepausen. Wir heißen sie herzlich willkommen.

Lasst uns gemeinsam die aktivste KI-Compiler-Community Chinas aufbauen! Zum Schluss noch ein Gruppenfoto der Szene ❤️

Veranstalter und Partner

Als international führende Community für künstliche Intelligenz und Hochleistungsrechnen möchte HyperAI (hyper.ai) Entwicklern und Enthusiasten in der globalen Datenwissenschafts- und künstlichen Intelligenzbranche beim Lernen, Verstehen und Üben helfen, indem es eine Reihe von Diensten bereitstellt, wie etwa Brancheninformationsberichte, beschleunigte Downloads von Datensätzen, Demonstrationen von Online-Tutorials, Leistungsbewertungen beliebter Modelle, Empfehlungen für topaktuelle Arbeiten, hochwertige Ergebnisinterpretationen und Integration von Konferenzkalendern der Spitzenklasse, und gemeinsam mit der Community die Zukunft der künstlichen Intelligenz gestalten.

Besuchen Sie die offizielle Website:https://hyper.ai/

OpenBayes Bayesian Computing ist ein führender Anbieter von Hochleistungs-Computing-Diensten in ChinaDurch die Integration klassischer Software-Ökosysteme und Modelle des maschinellen Lernens in heterogene Chips der neuen Generation werden Industrieunternehmen und der wissenschaftlichen Forschung an Universitäten schnellere und benutzerfreundlichere Produkte für die Datenwissenschaft bereitgestellt. Seine Produkte werden von Dutzenden großer Industrieszenarien oder führenden wissenschaftlichen Forschungsinstituten übernommen.

Besuchen Sie die offizielle Website:https://openbayes.com/

Die MLC.AI-Community wurde im Juni 2022 gegründet. Chen Tianqi, der Haupterfinder von Apache TVM und ein bekannter junger Wissenschaftler auf dem Gebiet des maschinellen Lernens, leitete das Team bei der Einführung des MLC-Onlinekurses, der systematisch die Schlüsselelemente und Kernkonzepte der Kompilierung maschinellen Lernens vorstellte.

Im November 2022 wurde dank der gemeinsamen Anstrengungen der Freiwilligen der MLC.AI-Community die erste vollständige chinesische TVM-Dokumentation veröffentlicht und erfolgreich auf der offiziellen HyperAI-Website gehostet. Damit werden inländischen Entwicklern, die an der Kompilierung von maschinellem Lernen interessiert sind, die grundlegenden Einstellungen für den Zugriff auf und das Erlernen einer neuen Technologie – der Dokumentation – bereitgestellt.

MLC-Onlinekurse:https://mlc.ai/

Chinesische TVM-Dokumentation:https://tvm.hyper.ai/

Garage Coffee wurde im April 2011 gegründet und ist eines der ersten Unternehmen in China, das sich auf Internet-Startups in der Frühphase konzentriert. Es hat eine kostengünstige, praktische, vollstufige, offene Innovations- und Unternehmerserviceplattform für Jungunternehmer rund um das Konzept des „Massenunternehmertums“ aufgebaut.

Als erster Makerspace in der Pekinger Zhongguancun Entrepreneurship Street nutzt Garage Coffee Cafés als interaktive Plattform, um Unternehmerteams interaktive Büroräume und Inkubationsdienste für Austausch, gemeinsame Förderung, Integration und Koexistenz zu bieten. Garage Coffee ist das weltweit erste Café mit unternehmerischem Thema und Chinas einflussreichster nationaler Makerspace sowie internationale Plattform für Innovation und Unternehmertum.

Veranstaltungsbetreuung

Holen Sie sich die PPT:Folgen Sie dem öffentlichen WeChat-Konto „HyperAI Super Neuro“ und antworten Sie auf das Schlüsselwort „0705 AI Compiler“, um die PPT mit der Rede des autorisierten Dozenten zu erhalten.

Scannen Sie den QR-Code, um der Eventgruppe beizutreten ⬇️

Command Palette

Veranstaltungsrückblick | AMD/Muxi Integrated Circuit/ByteDance/Peking University – Detaillierte Analyse Des Einheitlichen Kompilierungs-Ökosystems Auf Der Gesamten Hardware

Überprüfung der Veranstaltungsinhalte

2025 Lernen Sie AI Compiler kennen · Bleiben Sie dran

Veranstalter und Partner