Intel und AMD führen KI-Befehlssatz ACE für x86 ein
Intel und AMD haben kürzlich die vollständige Spezifikation der ACE-CPU-Erweiterungen veröffentlicht, die eine leistungsfähige, auf künstliche Intelligenz optimierte Befehlssatzarchitektur für x86-Prozessoren etablieren. Während komplexe KI-Workloads traditionell auf Grafikprozessoren ausgelagert werden, zeigen kleinere Modelle und latenzkritische Anwendungen, dass der Prozessor aufgrund geringerer Datenübertragungsverluste und fehlender GPU-Abhängigkeit deutlich effizienter agieren kann. Die ACE-Erweiterungen adressieren diese Lücke durch eine hardwarenahe Optimierung der Matrixmultiplikation, welche das Fundament nahezu aller modernen Machine-Learning-Algorithmen darstellt. Im Gegensatz zu den bestehenden AVX10-Befehlen, die ursprünglich nicht für zweidimensionale Matrixoperationen konzipiert wurden, integriert ACE dedizierte Siliziumstrukturen für multiplizier-akkumulierte Berechnungen. Dank der vollständigen Kompatibilität mit den 512-Bit-Registern von AVX10 entfällt eine aufwändige Migration der Systemarchitektur. In der Praxis ermöglicht ACE bei identischen Eingabevektoren bis zu sechzehnfach mehr Operationen als der klassische AVX10-Loop. Dies reduziert nicht nur den CPU-Instruktions-Overhead, sondern optimiert auch die Auslastung des Arbeitsspeicherbandwidth. Die tatsächliche Performancesteigerung variiert je nach Implementierung, doch beide Anbieter planen, zukünftige Chipdesigns gezielt auf diese Architektur auszurichten. Ein zentraler Vorteil der ACE-Extension liegt in ihrer hardwareunabhängigen Auslegung. Entwickler von Machine-Learning-Frameworks wie PyTorch oder TensorFlow müssen fortan nicht mehr plattformspezifische Optimierungen vornehmen, sondern können auf einen einheitlichen Befehlsweg zurückgreifen. Native Unterstützung besteht für alle relevanten KI-Datentypen, darunter INT8, INT32, FP8, FP16, FP32 und BF16. Zusätzlich integriert ACE nativ die blockskalierten MX-Formate des Open Compute Project, eine Funktion, die AVX10 verwehrt bleibt. Diese Standardisierung erleichtert auch das Auslagern von NPU-spezifischen Workloads zurück auf den Hauptprozessor, sobald schnelle, lokal begrenzte Verarbeitung erforderlich ist, und eliminiert die bisherige Fragmentierung heterogener NPU-Implementierungen. Die Veröffentlichung der ACE-Spezifikation markiert einen strategischen Meilenstein für die x86-Plattform im Bereich der lokal ausgeführten KI. Durch die Kombination aus verbesserter Energieeffizienz, reduzierter Entwicklungscomplexity und der Fähigkeit, ressourcenschonende KI-Operationen direkt auf der CPU auszuführen, etablieren Intel und AMD eine robuste Alternative zu reinen GPU- oder NPU-Architekturen. Künftige Prozessorgenerationen werden voraussichtlich verstärkt auf diese Befehlserweiterungen setzen, um den wachsenden Bedarf an effizienter, ortsgebundener KI-Berechnung in Servern, Workstations und mobilen Endgeräten deckungsgerecht zu bedienen.
