Command Palette
Search for a command to run...
Vollständige Aufzeichnung | Shanghai Chuangzhi/TileAI/Huawei/Advanced Compiler Lab/AI9Stars: Tiefgehende Analyse Der KI-Compiler-Technologiepraxis

Angesichts der ständigen Weiterentwicklung der KI-Compiler-Technologie finden immer mehr Forschungen statt, die sich anhäufen und schließlich zusammenlaufen. Vor diesem Hintergrund findet am 27. Dezember die achte Veranstaltung „Meet AI Compiler“ statt.

Zu dieser Veranstaltung luden wir fünf Experten der Shanghai Innovation Academy, der TileAI Community, von Huawei HiSilicon, dem Advanced Compiler Lab und AI9Stars ein, um ihre Erkenntnisse entlang der gesamten Wertschöpfungskette – vom Software-Stack-Design über die Operatorentwicklung bis hin zur Leistungsoptimierung – zu präsentieren. Die Referenten demonstrierten anhand langjähriger Forschungsergebnisse ihrer Teams die Implementierungsmethoden und Vor- und Nachteile verschiedener technischer Ansätze in realen Anwendungsszenarien und verliehen abstrakten Konzepten so einen konkreteren Kontext.

Einige präsentierten ihre neuesten Forschungsergebnisse, andere stellten ihre aktuellen technischen Herausforderungen vor. Die Präsentationen auf der Bühne waren fesselnd, und die Diskussionen ebenso lebhaft: Fragen, Interaktionen und Gespräche in den Pausen sorgten dafür, dass die Themen stetig vertieft, ergänzt und erweitert wurden. Der Austausch war nicht länger einseitig, sondern entwickelte sich allmählich zu einem langfristigen Dialog rund um KI-Compiler. Alle redeten ununterbrochen – und genau das macht den Charme unserer KI-Compiler-Community aus!

Überprüfung der Veranstaltungsinhalte
Teilen und Bewerten

Thema teilen:TVM FFI: Offene ABI und FFI für Systeme des maschinellen Lernens
Inhalt:TVM FFI zielt darauf ab, die Probleme fragmentierter Ökosysteme und der Interoperabilität in Systemen für maschinelles Lernen zu lösen. Durch die Definition offener ABI- und FFI-Standards nutzt das Projekt die stabile C-ABI und DLPack, um kopierfreie Datenübertragung zu ermöglichen und so die Lücke zwischen Frameworks wie PyTorch und dem zugrunde liegenden Compiler zu schließen. Es unterstützt effiziente sprachübergreifende Aufrufe und reduziert dadurch den Entwicklungsaufwand für die plattformübergreifende Anpassung erheblich.
Sehen Sie sich diese Sharing-Sitzung an und erfahren Sie:
1. Lernen Sie den universellen TVM-FFI-Standard kennen, um die Entwicklungs- und Wartungskosten von sprachübergreifenden ML-Systemen deutlich zu reduzieren.
2. Ein zukunftsfähiges, modulares ML-Ökosystem verstehen und aufbauen.
Video teilen:[2025 Meet AI Compiler] TVM FFI: Offene ABI und FFI für Systeme des maschinellen Lernens_bilibili_

Thema teilen:TileRT: Eine Software- und Hardware-Untersuchung für latenzarme Inferenz großer Modelle
Inhalt:Da große Modelle Billionen von Parametern erreichen und Sequenzen mit Millionen von Token verarbeiten, brechen ihre Fähigkeiten ständig Rekorde. Das Streben nach maximaler Rechengeschwindigkeit für Modelle ist jedoch ungebrochen. Einerseits erfordern viele Szenarien mit geringer Latenz Reaktionen innerhalb von Sekunden oder sogar Millisekunden, beispielsweise bei Echtzeit-Entscheidungen und in der Spieltheorie. Andererseits hat sich mit dem Aufkommen des Agentenzeitalters im Training großer Modelle die Bereitstellungszeit für extrem lange Sequenzen zu einem erheblichen Engpass entwickelt.
Dieser Bericht stellt das TileRT-Projekt vor und untersucht, wie man einen Software-Stack für die Berechnung von Modellen im großen Maßstab mit extrem niedriger Latenz aufbaut, und zwar aus der Perspektive von KI-Compilern, Laufzeitumgebungen und Architekturdesign.
Sehen Sie sich diese Sharing-Sitzung an und erfahren Sie:
1. Den Hintergrund, die Bedeutung und die Zukunftsaussichten von Inferenzszenarien mit geringer Latenz für große Modelle verstehen.
2. Technische Herausforderungen und praktischer Erfahrungsaustausch von TileRT
Video teilen:[2025 Meet AI Compiler] TileRT: Software- und Hardware-Exploration für latenzarme Inferenz großer Modelle_bilibili_

Thema teilen:PyPTO: Ein Framework zur Entwicklung von Fusionsoperatoren auf Basis der White-Box-Kompilation.
Inhalt:Diese Präsentation konzentriert sich auf Huaweis neu eingeführtes Framework für die Entwicklung konvergenter Betreiberlösungen, PyPTO. Basierend auf dem Tensor/Tile-Programmierparadigma erzielt es ein ausgewogenes Verhältnis zwischen hoher Leistung und Benutzerfreundlichkeit durch den Fokus auf Technologien wie In-Core-SRAM-Management, plattformübergreifende PTO-Befehlssätze und MPMD-Laufzeitumgebung, kombiniert mit Human-in-the-Loop-Optimierung und White-Box-Kompilierung.
Sehen Sie sich diese Sharing-Sitzung an und erfahren Sie:
1. Machen Sie sich mit der Designphilosophie und der Kernarchitektur von PyPTO vertraut, einem Framework zur Entwicklung von Fusionsoperatoren, das nativ für die SIMD-Architektur konzipiert wurde.
2. Machen Sie sich mit der White-Box-Kompilierungsphilosophie von PyPTO vertraut, die auf der Nutzung der Expertenerfahrung der Benutzer und dem Wesen der Human-In-The-Loop-Optimierung basiert.
3. Meistern Sie den gesamten Prozess der schnellen Entwicklung von Hochleistungsfusionsoperatoren auf der Ascend-Plattform mithilfe der von PyPTO bereitgestellten Visualisierungswerkzeuge.

Thema teilen:Optimierungspraktiken für die Kompilierung des Triton-Compilers
Inhalt:Diese Präsentation konzentriert sich auf Optimierungsmethoden für den Triton-Compiler und führt systematisch in die Sprache und Compilerstruktur von Triton, die Entwicklung des Ökosystems und die Methoden zur Entwicklung von Operatorbibliotheken ein. Sie geht außerdem auf wichtige Optimierungstechniken für verschiedene Architekturen ein, darunter CPU, GPU und NPU, und zeigt den gesamten Weg zum Aufbau eines leistungsstarken, einheitlichen Operatorsystems auf.
Sehen Sie sich diese Sharing-Sitzung an und erfahren Sie:
1. Neueste Entwicklungen im Triton-Ökosystem
2. Wichtigste Optimierungstechniken des Triton-Compilers auf verschiedenen Architekturen (CPU/GPU/NPU)
Video teilen:[2025 Meet AI Compiler] Optimierungspraktiken für die Kompilierung des Triton-Compilers_bilibili_

Thema teilen:AutoTriton: Untersuchung von Triton-Operator-Optimierungstechniken für große, durch Reinforcement Learning gesteuerte Modelle
Inhalt:Das Schreiben effizienter Kernel mithilfe von Sprachen wie CUDA ist das Gebiet von Performance-Ingenieuren. Mit dem Aufkommen von Programmierframeworks wie Triton hat die Programmierbarkeit von Kerneln einen bedeutenden Sprung nach vorn gemacht. Dennoch müssen Entwickler weiterhin wichtige Parameter manuell konfigurieren, was die Portabilität der Performance und die breite Anwendung einschränkt. Dieser Bericht stellt unsere Untersuchung von Benchmarks und Modellen zur Generierung von Operatoren im großen Maßstab vor und erörtert das enorme Potenzial großer Modelle für die Operatoroptimierung.
Sehen Sie sich diese Sharing-Sitzung an und erfahren Sie:
1. Relevante Arbeiten und neueste Fortschritte bei der Optimierung von Operatoren zur Stärkung großer Modelle
2. Schlüsseltechnologien großer Modelle in der Operatoroptimierung
Veranstalter und Partner

HyperAI (hyper.ai) ist eine international führende Community für künstliche Intelligenz und Hochleistungsrechnen.Ziel ist es, Entwicklern und Enthusiasten in der globalen Datenwissenschafts- und künstlichen Intelligenzbranche beim Lernen, Verstehen und Üben zu helfen, indem eine Reihe von Diensten bereitgestellt werden, wie etwa Brancheninformationsberichte, beschleunigte Downloads von Datensätzen, Demonstrationen von Online-Tutorials, Leistungsbewertungen beliebter Modelle, Empfehlungen für topaktuelle Arbeiten, hochwertige Ergebnisinterpretationen und Integration in erstklassige Konferenzkalender, und gemeinsam mit der Community die Zukunft der künstlichen Intelligenz aufzubauen.
Besuchen Sie die offizielle Website:https://hyper.ai/

OpenBayes Bayesian Computing ist ein führender Anbieter von Hochleistungs-Computing-Diensten in ChinaDurch die Integration klassischer Software-Ökosysteme und Modelle des maschinellen Lernens in heterogene Chips der neuen Generation werden Industrieunternehmen und der wissenschaftlichen Forschung an Universitäten schnellere und benutzerfreundlichere Produkte für die Datenwissenschaft bereitgestellt. Seine Produkte werden von Dutzenden großer Industrieszenarien oder führenden wissenschaftlichen Forschungsinstituten übernommen.
Besuchen Sie die offizielle Website:https://openbayes.com/

Die MLC.AI-Community wurde im Juni 2022 gegründet. Chen Tianqi, der Haupterfinder von Apache TVM und ein bekannter junger Wissenschaftler auf dem Gebiet des maschinellen Lernens, leitete das Team bei der Einführung des MLC-Onlinekurses, der systematisch die Schlüsselelemente und Kernkonzepte der Kompilierung maschinellen Lernens vorstellte.
Im November 2022 wurde dank der gemeinsamen Anstrengungen der Freiwilligen der MLC.AI-Community die erste vollständige chinesische TVM-Dokumentation veröffentlicht und erfolgreich auf der offiziellen HyperAI-Website gehostet. Damit werden inländischen Entwicklern, die an der Kompilierung von maschinellem Lernen interessiert sind, die grundlegenden Einstellungen für den Zugriff auf und das Erlernen einer neuen Technologie – der Dokumentation – bereitgestellt.
MLC-Onlinekurse:https://mlc.ai/
Chinesische TVM-Dokumentation:https://tvm.hyper.ai/

Die Shanghai Innovation Academy ist eine neuartige Ausbildungsstätte für Nachwuchskräfte, die von führenden Universitäten, Unternehmen und Forschungseinrichtungen gemeinsam gegründet wurde. Gemäß ihrer Ausbildungsphilosophie „Studentenzentrierung und Spitzenforschung“ entwickelt die Akademie mit herausragenden Dozenten, außergewöhnlichen Trainingsmaßnahmen und exzellenten Rahmenbedingungen ein einzigartiges chinesisches Ausbildungsprogramm für KI-Führungskräfte. Ziel ist es, führende KI-Talente in China auszubilden und ein weltweit führendes Innovationszentrum für künstliche Intelligenz zu etablieren.
Veranstaltungsbetreuung









