PCIe 5.0-Bandbreite wirkt sich kaum auf GPU-Leistung bei Content-Erstellung aus.
Der Einfluss von PCIe 5.0-Bandbreite auf die GPU-Leistung bei Content-Erstellung Mit der Einführung der NVIDIA Blackwell-GPUs und der RDNA 4-basierten Radeon 9000-Serie-GPUs haben wir endlich Konsumvideo-Karten, die den PCIe 5.0-Standard unterstützen. Obwohl Motherboards mit dieser Unterstützung seit einiger Zeit erhältlich sind, gab es bisher keine Geräte außer Speichergeräten, die diese Bandbreite nutzen konnten. Dies führt zur Frage, welchen Einfluss die erhöhte Bandbreite von PCIe 5.0 auf die GPU-Leistung in Content-Erstellungsanwendungen hat. PCI Express (PCIe oder PCI-e abgekürzt) ist eine Technologie, die verschiedene interne Computergeräte mit dem Motherboard verbindet. Die physischen Steckplätze und das Kommunikationsschema werden für Festplatten, GPUs und Zusatzkarten wie RAID-, HBA-Karten und Netzwerkkarten verwendet. Seit 2003 gibt es verschiedene Revisionen und Updates des Standards. Derzeit ist die am häufigsten auf neuen High-End-Motherboards zu findende PCIe-Spezifikation PCIe 5.0 im 16x-Modus, oft aber auch mit einigen 4.0-Lanes. Der Hauptunterschied zwischen den PCI Express-Versionen liegt in der Übertragungsrate. Eine PCIe-Verbindung zwischen Geräten hat zwei definierende Merkmale: die Anzahl der Lanes und die PCIe-Version. Die meisten Slots auf einem Motherboard haben zwischen vier und sechzehn Lanes (x4, x8 oder x16), gelegentlich auch x1 oder x2. Jedes dieser Lanes hat eine maximale Übertragungsrate, die durch die PCIe-Version definiert ist. Seit PCIe 3.0 hat jede neue Version diese Übertragungsrate verdoppelt. Als Beispiel unterstützt PCIe 5.0 bis zu 32 GT/s pro Lane. Ein x16-Slot hat also 16 Lanes, jedes mit 32 GT/s, für eine maximale Durchsatzrate von 64 GB/s. Würde der gleiche Slot das PCIe 4.0-Protokoll verwenden, hätte er 16 Lanes mit 16 GT/s für einen Durchsatz von bis zu 32 GB/s. Alternativ könnte man 32 GB/s auch mit 8 Lanes in PCIe 5.0 erreichen. Momentan neigen Verbrauchermotherboards dazu, begrenzte "freie" PCIe-Lanes zu bieten. Wir sind oft enttäuscht von der Anzahl, der Verbindbarkeit und der Platzierung der PCIe-Slots auf Motherboards. Abhängig vom jeweiligen Preispunkt haben viele Boards einen primären 5.0 x16-Slot und nur wenige weitere Slots, oft in 4.0 x4 oder sogar 3.0 x1. Ein Grund dafür ist, dass viele der verfügbaren PCIe-Lanes (vom CPU oder Chipset) für zusätzliche Features wie M.2-Slots, USB-Anschlüsse und Ethernet/WiFi reserviert werden. Das Problem dabei ist, dass nach der Installation einer GPU möglicherweise kein Weg mehr vorhanden ist, eine zweite GPU mit voller Bandbreite hinzuzufügen. Selbst unsere bevorzugten ASUS ProArt-Boards müssen die GPU auf x8 betreiben, wenn wir die meisten Zusatzkarten oder zusätzliche GPUs einbauen wollen. Nicht jeder Benutzer benötigt viele Zusatzkarten. Für viele Benutzer ist eine einzelne GPU das einzige Gerät, das sie verwenden. Aber wir haben festgestellt, dass Profis häufig eine GPU plus mindestens eine Zusatzkarte benötigen. Deshalb empfehlen wir, bei den kommenden Ergebnissen auf die Bandbreiten 5.0 x16, 5.0 x8 und 4.0 x4 zu achten. Für Benutzer älterer Motherboards, die eine GPU-Aktualisierung in Betracht ziehen, sind 3.0 x16 und x8 ebenfalls relevant. Testergebnisse Video-Editieren / Motion Graphics: DaVinci Resolve Studio & After Effects In DaVinci Resolve und After Effects haben wir nur die "Gesamt"-Bewertungen berücksichtigt, da wir bei der Aufteilung nach Workflow kaum Unterschiede in den Gesamtleistungsverläufen festgestellt haben. In den Rohdaten-Tabellen finden Sie jedoch spezifischere Leistungsdaten für verschiedene Workflows wie 3D in After Effects oder Intraframe-Medien in Resolve. Bei DaVinci Resolve (Diagramm #1) zeigt sich, dass die PCIe-Bandbreite des GPU die Gesamtleistung bemerkbar beeinflusst. An der oberen Bandbreitenspitze sehen wir vergleichbare Leistungen für PCIe 5.0 x16, 5.0 x8 und 4.0 x16. Technisch gesehen liegt das Ergebnis für 5.0 x16 vorn, aber es ist innerhalb der Marginalfehler, die wir bei solchen Tests akzeptieren. Danach folgen die Kombinationen mit 16 GB/s Durchsatz: 5.0 x4, 4.0 x8 und 3.0 x16. Diese Gruppe ist etwa 90% so leistungsfähig wie die vorherige. Wir freuen uns nicht über eine 10%ige Leistungsreduzierung durch einen langsamen Slot, aber oft ist dies akzeptabel. Die nächste Stufe darunter ist es jedoch nicht. 3.0 x8 und 4.0 x4 waren nur 75% so schnell wie das Ergebnis bei voller Bandbreite (5.0 x16). Die langsamste Option, 3.0 x4, hatte nur 54% der Leistung. Obwohl es selten ist, eine GPU in diesen Kombinationen zu betreiben, empfehlen wir, dies für DaVinci Resolve zu vermeiden. In After Effects (Diagramm #2) sehen wir weniger Effekt insgesamt. Im Gegensatz zu DaVinci Resolve sind die Balken weniger farblich gruppiert, und es gibt weniger Treppenmuster. Die drei langsamsten Bandbreiten sind auch die drei langsamsten Ergebnisse. Hier liegen die Ergebnisse für 64 GB/s bis 16 GB/s alle innerhalb der Marginalfehler, sind also zufällig verteilt. Sobald wir auf 8 GB/s mit 3.0 x8 heruntergehen, liegen wir außerhalb dieser Marginalfehler (allerdings nur im Vergleich zur Gruppe). Bei 8 GB/s ist 4.0 x4 langsamer als die höheren Bandbreiten. Schließlich ist 3.0 x4 10% langsamer als Konfigurationen mit 16 GB/s oder mehr. Unsere Empfehlung lautet, sich bei After Effects weniger um PCIe-Bandbreite zu sorgen, aber eine wirklich niedrige Bandbreitsituation wie 3.0 x4 zu vermeiden. Spielentwicklung / Virtuelle Produktion: Unreal Engine Unsere Benchmark-Ergebnisse für Unreal Engine liegen zwischen DaVinci Resolve und After Effects. Ähnlich wie beim Erstgenannten gibt es eine klare Gruppierung der Bandbreiten, aber ähnlich wie bei AE existieren nicht viele deutliche "Stufen". 5.0 x16, x8 und x4 sowie 4.0 x16 und x8 und 3.0 x16 sind alle funktional identisch. 3.0 x16 scheint etwas langsamer zu sein, liegt aber innerhalb der Marginalfehler. Bei den niedrigeren Bandbreiten sehen wir jedoch Ergebnisse außerhalb dieser Fehlergrenzen. 4.0 x4 und 3.0 x8 sind 93% so schnell wie die 64 GB/s-Ergebnisse, und 3.0 x4 verzeichnet 90% der Leistung. Insgesamt sind dies keine großen Leistungsunterschiede. Obwohl ein 10%iger Leistungsverlust nicht gut ist, ist er in manchen Fällen akzeptabel. Wir raten jedoch, vorsichtig zu sein, wenn man die GPU auf 4.0 x4 oder niedriger einstellt, was bei Multi-GPU-Setups oder zur Unterbringung von Zusatzkarten erforderlich sein kann. GPU-Rendering: Blender & Octane Für diesen Artikel haben wir drei Renderbenchmarks getestet: V-Ray, Blender und Octane. Die V-Ray-Ergebnisse schienen besonders anomalous, daher haben wir sie in den Diagrammen nicht berücksichtigt, obwohl sie in der Ergebnistabelle vorhanden sind. In Blender und Octane sehen wir praktisch keinen Einfluss der Bandbreite auf die Leistung. Bei Blender beträgt die totale Veränderung des Durchschnitts etwa 5%, bei Octane 2.5%. Alle Ergebnisse liegen weitgehend innerhalb der Marginalfehler, so dass wir kaum Schlussfolgerungen ziehen können. In diesem Fall bedeutet dies, dass es wahrscheinlich keinen Einfluss gibt. Dies ergibt Sinn, da die Szenen in der Regel vollständig in die GPU-VRAM geladen werden und das System abstürzt, wenn dies nicht möglich ist. Es gibt einige Ausnahmen bei LLMs, aber das Arbeiten aus dem System-RAM ist ein enormer Verlust an Geschwindigkeit. Daher kann eine reduzierte PCIe-Bandbreite das initiale Laden des Modells oder der Szene verlangsamen, sollte aber nach dem Laden einen vernachlässigbaren Einfluss auf die Leistung haben. Wir warnen jedoch, dass bei Verwendung von VRAM-Pooling zur Unterbringung eines Modells die PCIe-Bandbreite einen großen Einfluss haben kann. Dies konnten wir hier jedoch nicht testen. Künstliche Intelligenz: LLM (Llama) Schließlich betrachten wir das Llama.cpp-Benchmark, das die GPU-Leistung bei Prompt-Verarbeitung und Token-Generierung untersucht. Bei beiden Workflows scheinen die Ergebnisse effektiv zufällig zu sein, ohne erkennbares Muster. Der Gesamtleistungsunterschied ist auch recht klein, etwa 6% bei der Prompt-Verarbeitung. Deshalb sagen wir generell, dass Bandbreite bei der KI-Leistung wenig Einfluss hat. Allerdings warnten wir, dass unser LLM-Benchmark sehr klein ist und LLM-Setups oft mehrere GPUs involvieren, die Teile des Modells in den Systemspeicher auslagern. In diesen Fällen erwarten wir, dass die PCIe-Bandbreite einen großen Einfluss auf die Gesamtleistung hat. Zusammenfassung Auf modernen Motherboards erhalten Sie oft nur einen PCIe-Slot mit voller 5.0 x16-Bandbreite. Zusätzliche Slots könnten 5.0 x8 sein, sind aber wahrscheinlich viel niedriger, bei 4.0 x4 oder niedriger. Dadurch können bei Multi-GPU-Setups oder Konfigurationen mit Zusatzkarten eine oder mehrere GPUs erheblich reduzierte PCIe-Bandbreite haben. Obwohl die meisten Workflows, die wir getestet haben, bei 4.0 x4 keine großen Leistungsverluste zeigen, ist dies nicht allgemein gültig. Im Video-Editieren/Motion Graphics hatten wir den größten Einfluss festgestellt. PCIe 5.0 x16, x8 und 4.0 x16 waren funktional gleichwertig. Darunter begannen wir jedoch Unterschiede zu sehen, insbesondere in DaVinci Resolve. Bei dieser Anwendung war 3.0 x16 10% langsamer, und unser typischer Fall 4.0 x4 etwa 25% langsamer. Diese Margen sind in After Effects reduziert, aber immer noch vorhanden. Wir empfehlen Vorsicht bei der Konfiguration von Systemen für Video-Editieranwendungen mit mehreren Zusatzkarten, da eine Reduzierung der Lanes für die GPU einen messbaren Einfluss auf die Leistung haben kann. Unser Unreal Engine-Benchmark zeigte ebenfalls Leistungseinflüsse durch PCIe-Bandbreite, aber diese waren geringer. Wir bemerkten nur einen signifikanten Verlust, sobald die Bandbreite auf 4.0 x4 (oder entsprechend) reduziert wurde, mit einem durchschnittlichen fps-Abfall von 7%. 3.0 x4 war leicht schlechter, etwa 10% langsamer als die maximale Bandbreite. Obwohl uns dieser Leistungsverlust weniger Sorgen macht, sollte er dennoch beachtet werden. Offline-Renderer und LLM-Benchmarks zeigten keinen Einfluss der PCIe-Bandbreite auf die Leistung. Dies ist sinnvoll, da beide tendenziell ihre Arbeit vollständig in die GPU-VRAM laden und abstürzen, wenn sie dies nicht können. Es gibt einige Ausnahmen bei LLMs, aber das Arbeiten aus dem System-RAM verursacht einen enormen Verlust. Daher kann eine reduzierte PCIe-Bandbreite das initiale Laden des Modells oder der Szene verlangsamen, sollte aber nach dem Laden einen vernachlässigbaren Einfluss haben. In Situationen, in denen Sie VRAM poolen, um ein Modell unterzubringen, kann die PCIe-Bandbreite jedoch einen großen Einfluss haben. Fazit Wenn wir die Systeme konfigurieren, die wir verkaufen, gewichten wir das Bedürfnis nach maximaler Leistung der Komponenten gegen das Verlangen nach Zusatzkarten, die für die Arbeit unserer Kunden notwendig sind. Häufig bedeutet dies, die primäre GPU auf PCI-e 5.0 x8 zu reduzieren, was die PCI-e-Bandbreite halbiert. Wie in diesem Artikel gezeigt, hat diese erhebliche Reduzierung der Bandbreite in der Regel nur einen minimalen Einfluss auf die reale Leistung. Außer bei einigen ungewöhnlichen Situationen bestätigen diese Tests, dass, solange Sie ein modernes Motherboard mit PCIe 5.0 haben, die GPU in x8-Betrieb ohne Probleme läuft. Niedrigere Motherboards, die die GPU auf 4.0 x4 betreiben müssen, können jedoch Leistungsstrafen einführen. Industrie-Insider bewerten diese Entwicklungen positiv, da sie die Flexibilität und Leistungsfähigkeit moderner Motherboards unterstreichen. Unternehmen wie ASUS und Gigabyte investieren in innovative Lösungen, um die Anforderungen professioneller Nutzer zu erfüllen, auch wenn dies die Anzahl der voll ausgeschalteten PCIe-Slots reduziert. Dies zeigt, dass die Optimierung von PCIe-Bandbreite und Slot-Layout ein wichtiger Faktor für die Leistung von Content-Erstellungssystemen ist.