Neuer Attacke GPUHammer: AI-Modelle auf Nvidia-Karten gefährdet
Eine Gruppe von Wissenschaftlern an der Universität Toronto hat einen neuen Angriff namens GPUHammer entdeckt, der Bits im Speicher von NVIDIA-GPUs umkehren kann, wodurch KI-Modelle stillschweigend verfälscht und schwerwiegende Schäden verursacht werden, ohne dass der tatsächliche Code oder die Datenbeeinflusst werden. Obwohl NVIDIA bereits Vorgehensweisen veröffentlicht hat, um das Risiko zu reduzieren, ist es wichtig, diesen Angriff ernst zu nehmen, insbesondere wenn man eine Karte mit GDDR6-Speicher verwendet. Das Team hat gezeigt, wie GPUHammer das Genauigkeitsniveau eines KI-Modells von 80% auf unter 1% sinken lassen kann, indem es lediglich ein einzelnes Bit im Speicher umkehrt. Der Angriff wurde auf einer echten NVIDIA RTX A6000-Karte getestet und nutzt eine Technik, bei der Speizerellen immer wieder angezapft werden, bis ein benachbartes Bit umgeschlagen wird und damit den gespeicherten Inhalt verfälscht. Dieser Mechanismus basiert auf dem bekannten Hardware-Problem Rowhammer, das bisher vor allem bei CPUs und System-RAM bekannt war. Moderner Speicher ist so dicht gepackt, dass häufiges Lesen oder Schreiben einer Zeile elektrische Störungen verursachen kann, die Bits in benachbarten Zellen umkehren. Solche umgekehrten Bits können Zahlen, Befehle oder Gewichte eines neuronalen Netzes sein, was zu Fehlfunktionen führt. Bisher galt Rowhammer als Problem, das vor allem DDR4-System-RAM betrifft, aber GPUHammer beweist, dass es auch bei GDDR6-VRAM vorkommen kann. Dies ist besonders relevant für moderne NVIDIA-Karten, insbesondere in Arbeitsstationen und Servern, die für KI- und Workload-Aufgaben verwendet werden. Die Forscher haben gezeigt, dass sie selbst mit manchen Schutzmechanismen mehrere Bitumkehren in verschiedenen Speicherbänken verursachen konnten. In einem Fall machte dies ein trainiertes KI-Modell komplett unbrauchbar, da seine Funktionalität vollständig gestört wurde. Besonders beängstigend ist, dass der Angreifer keinen Zugriff auf Ihre Daten benötigt. Es reicht aus, wenn er sich in einer gemeinsamen GPU-Umgebung wie Cloud-Gaming-Servern, KI-Trainingsclustern oder VDI-Setups befindet, um Ihren Workload zu beeinflussen. Der Angriff wurde zwar auf einer RTX A6000-Karte getestet, aber das Risiko betrifft eine breite Palette von Ampere-, Ada-, Hopper- und Turing-GPUs, insbesondere solchen, die in Arbeitsstationen und Servern eingesetzt werden. NVIDIA hat eine vollständige Liste der betroffenen Modelle veröffentlicht und empfiehlt ECC (Fehlerkorrekturcode) für die meisten davon. Neuere GPUs wie die RTX 5090 und H100 verfügen über eingebautes ECC direkt auf dem Chip, das diese Probleme automatisch behandelt – ohne zusätzliche Benutzerkonfiguration. Für den durchschnittlichen Heimbenutzer, der sich Sorgen um seine persönliche Setup macht, stellt GPUHammer jedoch kein direktes Risiko dar. Er ist eher relevant für geteilte GPU-Umgebungen, in denen mehrere Benutzer auf der gleichen Hardware arbeiten. Dennoch sollte die Tatsache, dass der Speicher einer GPU stillschweigend manipuliert werden kann, von der gesamten Branche ernst genommen werden, insbesondere da immer mehr Spiele, Apps und Dienstleistungen auf KI setzen. NVIDIAS Empfehlung lautet, ECC zu aktivieren, falls die GPU dies unterstützt. ECC fügt Redundanz in den Speicher, um solche Fehler zu erkennen und zu korrigieren. Allerdings gibt es dabei einen kleinen Handel: Die Leistungsfähigkeit für maschinelles Lernen sinkt um etwa 10%, und die nutzbare VRAM verringert sich um etwa 6–6,5%. Für ernsthafte KI-Arbeit ist dieser Aufwand jedoch akzeptabel, da er eine höhere Sicherheit bietet. Man kann ECC mithilfe des Befehlszeilen-tools von NVIDIA aktivieren: nvidia-smi -e 1 Um zu überprüfen, ob ECC aktiv ist, verwendet man folgenden Befehl: nvidia-smi -q | grep ECC Angriffe wie GPUHammer sind nicht nur in der Lage, Systeme zu stürzen oder Glitches zu verursachen. Sie beeinträchtigen die Integrität der KI selbst, was Auswirkungen auf das Verhalten oder die Entscheidungsfindung der Modelle hat. Da alle diese Manipulationen auf Hardwareebene stattfinden, sind sie nahezu unsichtbar, es sei denn, man weiß genau, wonach man suchen muss. In reglementierten Branchen wie Gesundheitswesen, Finanzdienstleistungen oder autonomem Fahren könnten solche Fehlfunktionen ernsthafte Probleme verursachen – falsche Entscheidungen, Sicherheitslücken oder sogar rechtliche Konsequenzen. Obwohl der durchschnittliche Nutzer nicht direkt gefährdet ist, ist GPUHammer ein Weckruf. Mit der fortschreitenden Entwicklung von GPUs, die immer mehr als zentrales Element in KI, kreativen Arbeiten und Produktivitätsaufgaben dienen, müssen auch die Risiken ernst genommen werden. Die Speicherintegrität, auch auf GPUs, ist nicht länger optional. Insider der Branche sehen in GPUHammer eine ernste Bedrohung, insbesondere für professionelle und industrielle Anwendungen. NVIDIA, ein führendes Unternehmen im Bereich von Grafikkarten und KI-Hardware, setzt mit seinen Empfehlungen zur Aktivierung von ECC voraus, dass Benutzer und Unternehmen die Notwendigkeit von Speicherfehlererkennung und -korrektur verstehen. Dies zeigt, wie wichtig es ist, auf die Sicherheit von GPU-basierten Systemen zu achten, insbesondere in Zeiten, in denen KI eine immer größere Rolle spielt.