HyperAIHyperAI

Command Palette

Search for a command to run...

Co-Design für effizientes KI-Edge-Computing

Ein Forschungsteam der Universität Michigan hat in einer im Fachjournal Nature Communications veröffentlichten Studie ein innovatives Hardware-Software-Co-Design vorgestellt, das künstliche Intelligenz deutlich energieeffizienter und latenzärmer auf Edge-Geräten laufen lässt. Dieses neuromorphe Verfahren ermöglicht die Echtzeitverarbeitung kontinuierlicher Datenströme, wie sie in Videoaufnahmen oder von Sensoren stammen, direkt auf lokalen Geräten wie Smartphones, Hörgeräten oder in autonomen Fahrzeugen. Die Kerninnovation besteht darin, erstmals komplexe State Space Models (SSM), eine fortschrittliche Alternative zu den weit verbreiteten Transformer-Modellen, direkt auf eine Compute-in-Memory-Architektur abzubilden. Bisher war die Effizienz von KI-Inferenz auf Edge-Geräten durch zwei Hauptprobleme eingeschränkt. Auf Hardware-Ebene führt der ständige Datentransfer zwischen getrennten Speicher- und Verarbeitungseinheiten zu einem energieintensiven Engpass. Während Compute-in-Memory-Systeme diesen Flaschenhals vermeiden, waren sie bislang nicht mit der komplexen Mathematik der meisten KI-Modelle kompatibel. Auf Software-Ebene verursachen Transformer-Modelle mit zunehmender Eingabelänge hohen Speicherbedarf, während andere Ansätze wie spiking neural networks zwar speichereffizienter sind, aber oft an Genauigkeit verlieren. Das Team überwand diese Ineffizienzen durch eine präzise Abstimmung von Hardware und Software. Um die Chip-Leistung zu steigern, passten die Forscher das State-Space-Modell so an, dass es ausschließlich reelle Zahlen verwendet, anstatt bisher komplexer Zahlen, die aufwändige Trennung von Real- und Imaginärteilen erfordern. Dies erlaubt es jeder Speicherzelle, Daten direkt abzubilden. Zudem wurde die Speicherverwaltung optimiert, indem ein fester Abklingfaktor für gesamte Modellblöcke festgelegt wurde, anstatt für einzelne Neuronen unterschiedliche Raten zu verwenden. Dieser Mechanismus steuert, wie schnell das System alte Daten „vergisst", um Platz für neue zu schaffen. Die Realisierung erfolgte auf einem RRAM-Kreuzarray (Resistive RAM), das in einem Standard-Prozess mit 65 Nanometern gefertigt wurde. Durch die Verwendung von Wolframoxid-Memristoren mit unterschiedlichen Schichtdicken – gesteuert durch die Oxidationszeit bei 400 Grad Celsius – ließen sich die Hardware-Eigenschaften exakt auf die festgelegten Abklingfaktoren des Modells zuschneiden. Dünnere Schichten führen zu einem schnelleren Vergessen von Daten, während dickere Schichten den Speicher länger halten. In Tests zeigte das System beeindruckende Ergebnisse. Die Kreuzarrays führten Vektor-Matrix-Multiplikationen durch, deren Ergebnis nur 4,6 Bit von der idealen mathematischen Ausgabe entfernt lag. Die Memristoren verhielten sich im Abklingszenario genau wie im Modell vorhergesagt. Die Kombination aus neuromorpher Hardware und State Space Modellen ermöglichte so eine Echtzeitverarbeitung, die bei Latenz und Energieverbrauch herkömmlicher Digitalhardware weit überlegen ist. Trotz der Umstellung von einer perfekten Softwareumgebung auf reale Hardware blieb die Genauigkeit hoch, während der Energieverbrauch drastisch sank. Die Forscher betonen, dass dieses Design den Schritt hin zu einer hardware-nativen KI, die überall einsatzbereit ist, massiv beschleunigt. Wei Lu, die korrespondierende Autorin der Studie, hob hervor, dass die physikalische Implementierung aller Operationen im State-Space-Modell in dieser Architektur die Grundlage für hoch effiziente Hardware-Implementierungen dieser vielversprechenden Netzwerke bildet.

Verwandte Links