HyperAIHyperAI

Command Palette

Search for a command to run...

Event-Vorschau | AI Computing, TileRT, Tencent, Huawei Und AI Computing Innovation Bündeln Ihre Kräfte, Um Mehrstufige Kollaborative Optimierung Zu Erforschen

Featured Image

Von der brütenden Hitze Pekings bis zum eisigen Winter Shanghais hat der von HyperAI veranstaltete Fachsalon „Meet AI Compiler“ das Ökosystem der KI-Kompilierung drei Jahre lang begleitet. In diesen drei Jahren haben wir unzählige Ingenieure und Forscher erlebt, die neueste Erkenntnisse präsentierten und technische Perspektiven austauschten, um gemeinsam die kontinuierliche Weiterentwicklung der Kompilierungstechnologie im Zeitalter großer Modelle voranzutreiben und die Grenzen der Leistungsoptimierung, der heterogenen Anpassung und der technischen Implementierung stetig zu erweitern.

Die Technologie entwickelt sich ständig weiter, und unsere Bemühungen, mit den neuesten Innovationen in Verbindung zu treten, haben nie aufgehört. Am 1. August sticht der neunte Meet AI Compiler Technical Salon wieder in See – diesmal in Peking!In dieser Ausgabe haben wir mehrere Experten der Academy of Artificial Intelligence, des TileRT-Teams, von Tencent, Huawei Ascend und Zhiyuan Innovation eingeladen. Sie werden die Spracherweiterung FlagTree, die Inferenz mit extrem niedriger Latenz von TileRT, die Operatoroptimierung FalconGEMM, die Open-Source-Ko-Entwicklung von AscendNPU IR sowie Anwendungspraktiken für verkörperte Intelligenz eingehend analysieren. Ziel ist es, ein Bild der kollaborativen Entwicklung von KI-Compilern auf verschiedenen Ebenen zu zeichnen, darunter Sprachausdruck, Operatorberechnung, Inferenzausführung und Szenarioanwendung.

Wie immer sind die Plätze begrenzt, also schnell zugreifen! Sichern Sie sich jetzt Ihre Plätze, wir sehen uns dort!

Veranstaltungsdetails

⏰ Datum: 1. August (Samstag) 13:30-17:30 Uhr

📍 Standort: Multifunktionshalle, 5. Etage, Gebäude 12, Zhongguancun Entrepreneurship Street, Bezirk Haidian, Peking

👬 Teilnehmerzahl: 150 (Begrenzte Plätze verfügbar, bitte melden Sie sich so schnell wie möglich an) 

🙌🏻 Anmeldelink:https://hdxu.cn/1KkIr

Scannen Sie den QR-Code und geben Sie „AI Compiler“ ein, um der Eventgruppe beizutreten:

Gäste und Tagesordnung

Sitzung 1: Gastredner

Thema teilen:FlagTree: Triton-TLE-Spracherweiterungen, Tile-IR-Backend und Compiler-Optimierungspraktiken

Inhalt:Diese Präsentation ist in drei Teile gegliedert. Der erste Teil erläutert die Herausforderungen von Triton und wie TLE (Telegraphic Extensions) Hardware-Details schrittweise durch drei Ebenen von Spracherweiterungen offenlegt, um ein besseres Gleichgewicht zwischen Portabilität, Wartbarkeit und Leistung für Operatoren zu erreichen. Der zweite Teil konzentriert sich auf die Integration von Tile IR in den Triton-Compiler FlagTree und zeigt, wie dieser als neuartiges Compiler-Backend die Möglichkeiten zur Leistungsoptimierung von Triton-Operatoren erweitert. Der dritte Teil analysiert systematisch wichtige Compiler-Optimierungstechniken wie Layoutoptimierung und Befehlsneuanordnung und demonstriert einen vollständigen Optimierungspfad für leistungsstarke, chipübergreifende Operatoren.

Sehen Sie sich diese Sharing-Sitzung an und erfahren Sie:

1. Wie steuert TLE den On-Chip-Speicher, wie drückt es verteilte und Produzenten-Konsumenten-Modelle aus und wie integriert es die native Sprache des Herstellers?

2. Wie können TLE- und Tile-IR-Backends die Leistungsgrenze von Triton-Key-Operatoren verbessern?

3. Wie Compiler-Optimierungstechniken den Aufwand für die Datenlayout-Transformation reduzieren, die Effizienz der Befehlsausführung verbessern und die Leistung des Triton-Operators weiter steigern.

Thema teilen:TileRT: Geschwindigkeit ist Intelligenz – Computergestützte Exploration und Co-Design für Inferenz großer Modelle mit extrem niedriger Latenz

Inhalt:Da große Modelle Billionen von Parametern erreichen und in das Zeitalter der Agenten eintreten, ist extrem hohe Inferenzgeschwindigkeit zu einem Schlüsselelement geworden, um komplexe Aufgabenabläufe zu unterstützen und das volle Potenzial des Modells auszuschöpfen. Wenn Systeme jedoch versuchen, die Latenzgrenzen weiter zu senken, erweisen sich traditionelle Systemarchitekturen und Ausführungsengpässe oft als unüberwindbare Hindernisse.

Dieser Bericht stellt die neuesten Erkenntnisse von TileRT vor und zeigt, wie man einen Software-Stack für groß angelegte Modellberechnungen mit extrem niedriger Latenz aufbaut – von KI-Compilern über die Entwicklung der Laufzeitarchitektur bis hin zum gemeinsamen Entwurf von Modell und System.

Sehen Sie sich diese Sharing-Sitzung an und erfahren Sie:

1. Geschwindigkeit ist Intelligenz: Eine Untersuchung darüber, warum „Geschwindigkeit“ im Zeitalter der Agenten zunehmend zu einem Schlüsselindikator für die Inferenz großer Modelle wird.

2. Erkundung der Systemarchitektur: In diesem Abschnitt wird die architektonische Entwicklung von TileRT vorgestellt. Am Beispiel von GLM-5 wird erläutert, wie die Inferenzleistung durch eine Umstrukturierung der zugrunde liegenden Berechnungsplanung deutlich verbessert werden kann.

3. Gemeinsame Entwicklung und Produktion von Modellen und Systemen: Austausch darüber, wie der Geschwindigkeitsengpass von 1000 Transaktionen pro Sekunde bei der Single-Batch-Inferenz für Billionen-Parameter-Modelle durch die gemeinsame Entwicklung von Modellen und Systemen überwunden werden kann.

Thema teilen:FalconGEMM: Hardware-Spitzenwerte mit Matrixmultiplikation geringerer Komplexität übertreffen

Inhalt:Die Matrixmultiplikation (GEMM) ist der Kern der Rechenleistung für das Training und die Inferenz großer Modelle. Da die Modellgröße exponentiell wächst, nähert sich die O(N³)-Komplexität des Standardalgorithmus jedoch ständig der physikalischen Leistungsgrenze der Hardware. Wie sich die Leistung auch bei maximaler Rechenleistung des Chips weiter steigern lässt, ist zu einer zentralen Frage für die Infrastruktur großer Modelle geworden. Entscheidend ist das Verständnis der Prinzipien, des Nutzens und der technischen Herausforderungen der Matrixmultiplikation mit geringer Komplexität, die die Leistungsgrenze im Kontext der Operatoroptimierung an ihrem Höhepunkt durchbricht. Ein Ansatz, der von der mathematischen Gemeinschaft seit über 50 Jahren verfolgt wird, ist die Matrixmultiplikation mit geringer Komplexität (LCMA, z. B. Strassen und AlphaTensor). Dabei werden weniger Multiplikationen durch mehr Speicherzugriffe und Additionen ersetzt, wodurch die Hardware-Leistungsgrenze im übertragenen Sinne durchbrochen wird. Die drei größten technischen Herausforderungen – hoher Speicherzugriffsaufwand, Algorithmenauswahl und plattformübergreifende Portabilität – haben diesen Ansatz jedoch lange Zeit auf theoretischer Ebene gehalten.

Dieser Bericht stellt das FalconGEMM-Projekt vor, das LCMA systematisch von der Theorie in die produktionsreife Softwareentwicklung überführt und dabei drei Ebenen abdeckt: die compilerbasierte Codegenerierung, die Speicherzugriffsoptimierung durch gruppenparallele Fusion und die algorithmische Entscheidungsfindung auf Basis von Leistungsmodellen. Es übertrifft zudem führende offizielle Bibliotheken auf verschiedenen GPU/CPU-Plattformen und bei realen, umfangreichen Modell-Workloads.

Sehen Sie sich diese Sharing-Sitzung an und erfahren Sie:

1. Die Prinzipien, den Wert und die technischen Herausforderungen der Matrixmultiplikation mit geringer Komplexität verstehen, die die Leistungsgrenze durchbricht, wenn die Operatoroptimierung an ihre Grenzen stößt.

  1. Die technischen Lösungen und plattformübergreifenden Vorgehensweisen von FalconGEMM.

Thema teilen:AscendNPU IR: Die Kompilierungsplattform ist Open Source und unterstützt die mehrsprachige Integration mit Ascend.

Inhalt:AscendNPU IR, die Compilerkomponente von Ascend, ist vollständig Open Source. Als MLIR-Zugriffsschicht für Ascend auf Programmierframeworks von Drittanbietern bietet sie flexible Integrationsmöglichkeiten, vollständige Ausdrucksmöglichkeiten und Ascend-freundliche Kompilierungsoptimierungen und unterstützt mehrere Frontend-DSLs zur Verbesserung der Leistung von Ascend-Operatoren.

Sehen Sie sich diese Sharing-Sitzung an und erfahren Sie:

1. Die technische Gesamtarchitektur und die Designphilosophie von AscendNPU IR verstehen.

2. Machen Sie sich mit den neuen Funktionen von Ascend NPU IR für die Ascend 950-Erweiterung vertraut.

3. Machen Sie sich mit den Community-Aufbauaktivitäten von AscendNPU IR vertraut und erfahren Sie, wie Sie daran teilnehmen können.

Thema teilen:Ein universeller KI-Compiler für den Bereich der verkörperten Intelligenz

Inhalt:Dieser Bericht stellt einen universellen Compiler für verkörperte Intelligenz und multimodale große Modelle vor, der sich auf die Erfassung, den Export, die Gruppierung, die Kompilierung, die Laufzeitbereitstellung und die Leistungsoptimierung kompletter Algorithmenpipelines konzentriert und wichtige Fragen der Edge-Bereitstellung, des stabilen Betriebs, der Framework-übergreifenden Anpassung und der technischen Skalierung von Robotermodellen behandelt.

Sehen Sie sich diese Sharing-Sitzung an und erfahren Sie:

1. Die zentralen Herausforderungen verstehen, die den Einsatz von Modellen verkörperter Intelligenz von dem Einsatz traditioneller Modelle unterscheiden, einschließlich der technischen Komplexität und der Wartungskosten, die durch mehrere Modelle, mehrere Frameworks und mehrstufige Pipelines entstehen.

2. Machen Sie sich mit der Funktionsweise eines Allzweck-Compilers vertraut, der den gesamten Algorithmusablauf durch dynamisches Tracing erfasst und Module wie Vorverarbeitung, VLA-Modell, LLM und Nachbearbeitung in eine kompilierbare, bereitstellbare und bereitstellbare DAG-Vorlage organisiert.

3. Verstehen, wie gruppierte Kompilierung und eine einheitliche Laufzeitarchitektur verschiedene Backends unterstützen und dabei die Vorteile verschiedener Chips nutzen, während gleichzeitig eine einheitliche Auslieferungskette aufrechterhalten wird.

4. Das Schnittstellenparadigma zwischen dem Compiler der verkörperten Domäne und der Vertriebsplattform verstehen.

Veranstalter und Partner

HyperAI (hyper.ai) ist eine international führende Community für künstliche Intelligenz und Hochleistungsrechnen.Ziel ist es, Entwicklern und Enthusiasten in der globalen Datenwissenschafts- und künstlichen Intelligenzbranche beim Lernen, Verstehen und Üben zu helfen, indem eine Reihe von Diensten bereitgestellt werden, wie etwa Brancheninformationsberichte, beschleunigte Downloads von Datensätzen, Demonstrationen von Online-Tutorials, Leistungsbewertungen beliebter Modelle, Empfehlungen für topaktuelle Arbeiten, hochwertige Ergebnisinterpretationen und Integration in erstklassige Konferenzkalender, und gemeinsam mit der Community die Zukunft der künstlichen Intelligenz aufzubauen.

Besuchen Sie die offizielle Website:https://hyper.ai/

OpenBayes Bayesian Computing ist ein führender Anbieter von Hochleistungs-Computing-Diensten in ChinaDurch die Integration klassischer Software-Ökosysteme und Modelle des maschinellen Lernens in heterogene Chips der neuen Generation werden Industrieunternehmen und der wissenschaftlichen Forschung an Universitäten schnellere und benutzerfreundlichere Produkte für die Datenwissenschaft bereitgestellt. Seine Produkte werden von Dutzenden großer Industrieszenarien oder führenden wissenschaftlichen Forschungsinstituten übernommen.

Besuchen Sie die offizielle Website:https://openbayes.com/

Die MLC.AI-Community wurde im Juni 2022 gegründet. Chen Tianqi, der Haupterfinder von Apache TVM und ein bekannter junger Wissenschaftler auf dem Gebiet des maschinellen Lernens, leitete das Team bei der Einführung des MLC-Onlinekurses, der systematisch die Schlüsselelemente und Kernkonzepte der Kompilierung maschinellen Lernens vorstellte.

Im November 2022 wurde dank der gemeinsamen Anstrengungen der Freiwilligen der MLC.AI-Community die erste vollständige chinesische TVM-Dokumentation veröffentlicht und erfolgreich auf der offiziellen HyperAI-Website gehostet. Damit werden inländischen Entwicklern, die an der Kompilierung von maschinellem Lernen interessiert sind, die grundlegenden Einstellungen für den Zugriff auf und das Erlernen einer neuen Technologie – der Dokumentation – bereitgestellt.

MLC-Onlinekurse:https://mlc.ai/

Chinesische TVM-Dokumentation:https://tvm.hyper.ai/

Unterstützung des Veranstaltungsortes

Der Veranstaltungsort wurde vom Verwaltungsausschuss der Zhongguancun Science City und der Beijing Zhongguancun Science City Innovation Development Co., Ltd. zur Verfügung gestellt.

Aktive Zeile:Scannen Sie den QR-Code, um zur Veranstaltungsregistrierung zu gelangen

Scannen Sie den QR-Code und geben Sie „AI Compiler“ ein, um der Eventgruppe beizutreten

Aufgrund der begrenzten Platzverhältnisse im Veranstaltungsort stehen nur 150 Plätze zur Verfügung. Wir empfehlen Ihnen daher, sich so schnell wie möglich anzumelden, um sich Ihren Platz zu sichern.

Wir sehen uns dort am 1. August von 13:30 bis 17:30 Uhr!