PCIe 5.0 대역폭이 GPU 콘텐츠 제작 성능에 미치는 영향 분석
PCIe 5.0 대역폭이 GPU 콘텐츠 제작 성능에 미치는 영향 NVIDIA Blackwell GPU와 RDNA 4 기반 Radeon 9000 시리즈 GPU 출시로, 마침내 PCIe 5.0을 지원하는 소비자용 비디오 카드가 등장했습니다. PCIe 5.0은 이미 몇 년 전부터 메인보드에서 지원되어 왔지만, 저장장치 외에 이를 활용하는 장치는 없었습니다. 이제 이 기술의 대역폭 증가가 콘텐츠 제작 애플리케이션에서 GPU 성능에 어떤 영향을 미치는지 궁금해집니다. PCIe(Peripheral Component Interconnect Express)는 컴퓨터 내부 장치들을 메인보드에 연결하는 데 사용되는 기술입니다. 드라이브, GPU, RAID 또는 HBA 카드, 네트워크 카드 등 다양한 장치들이 이 연결 방식을 사용합니다. 2003년 이후로 여러 번의 개정과 업데이트를 거쳤으며, 현재 고급 메인보드에서는 주로 PCIe 5.0 16x 버전이 사용되고 있습니다. 그러나 일반적으로 4.0 x4 또는 3.0 x1 같은 다른 버전의 슬롯들도 함께 제공됩니다. PCI Express 버전 간의 주요 차이는 전송 속도입니다. 장치 간의 PCIe 연결은 슬롯의 레인 수와 PCIe 버전으로 정의됩니다. 대부분의 슬롯은 4레인(x4)에서 16레인(x16) 사이의 레인 수를 가지며, 가끔 1레인(x1) 또는 2레인(x2) 슬롯도 있습니다. 각 레인은 PCIe 버전에 따라 최대 전송 속도를 가지며, PCIe 3.0 이후로 각 새로운 버전은 이 전송 속도를 두 배로 늘렸습니다. 예를 들어, PCIe 5.0은 레인 당 최대 32 GT/s(Gigatransfers per second)의 전송 속도를 지원합니다. 따라서 16레인 슬롯의 최대 처리량은 64 GB/s입니다. 같은 슬롯이 PCIe 4.0 프로토콜을 사용할 경우, 16레인 각각 16 GT/s로 최대 32 GB/s의 처리량을 가지게 됩니다. 8레인 슬롯이 PCIe 5.0을 사용하면 32 GB/s의 처리량을 얻을 수 있습니다. 현재 대부분의 소비자용 데스크톱 메인보드는 "무료" PCIe 레인이 제한적입니다. 일반적으로 메인 5.0 x16 슬롯 하나와 몇 개의 4.0 x4 또는 3.0 x1 슬롯들이 제공됩니다. 메인보드의 가격대에 따라 다르지만, 많은 보드들은 추가적인 장치를 위한 PCIe 슬롯의 수와 위치에 실망감을 준다고 할 수 있습니다. ASUS ProArt 보드를 선호하는 이유 중 하나는 이러한 PCIe 슬롯 배치와 지원 때문입니다. 하지만 이는 단순히 메인보드 제조업체가 저렴하게 만든 것이 아닙니다. 많은 PCIe 레인은 CPU나 칩셋에서 확장 카드 대신 M.2 슬롯, USB 포트, 이더넷/와이파이 등의 부가 기능에 할당됩니다. 이로 인해 GPU를 설치하면 두 번째 GPU를 전체 대역폭으로 추가하는 것이 불가능하거나 매우 제한적일 수 있습니다. 저희가 선호하는 보드들조차도 대부분의 확장 카드나 추가 GPU를 설치하려면 GPU가 x8로 작동해야 합니다. 확장 카드(GPU를 포함)가 PCIe 레인의 사용 가능성을 고려하여 더 낮은 대역폭으로 작동해야 할 때, 성능 저하의 비용은 얼마나 될까요? 비디오 카드가 최대 PCIe 대역폭 미만으로 작동할 때 성능 저하가 얼마나 되는지를 알아보기 위해 테스트를 진행했습니다. 테스트를 위해 다양한 워크플로와 작업을 커버하도록 벤치마크를 선택했습니다. 특정 애플리케이션의 작업이 주를 이루는 사용자를 위해 개별 결과도 제공했습니다. 그러나 대부분의 사용자에게는 다음 섹션에서 자세히 분석한 내용에 초점을 맞추는 것이 좋습니다. 영상 편집 및 모션 그래픽: DaVinci Resolve Studio & After Effects DaVinci Resolve와 After Effects에서 "전체" 점수만 포함시켰습니다. 이는 워크플로별로 분리했을 때 전체 성능 추이에 큰 차이가 없었기 때문입니다. 그러나 원한다면 위의 원본 결과 테이블에서 특정 워크플로의 성능 점수를 확인할 수 있습니다. DaVinci Resolve (차트 #1)에서는 GPU PCIe 대역폭이 성능에 명백히 영향을 미치는 것을 발견했습니다. 5.0 x16, 5.0 x8, 4.0 x16에서는 거의 유사한 성능을 보였습니다. 5.0 x16 결과가 가장 앞섰지만, 이는 테스트의 오차 범위 내에 있었습니다. 다음 그룹은 5.0 x4, 4.0 x8, 3.0 x16으로, 이 그룹은 최상위 그룹의 성능의 약 90%를 유지했습니다. 10%의 성능 저하는 바람직하지 않지만, 종종 받아들일 수 있는 수준입니다. 하지만 그 아래 단계는 그렇지 않습니다. 3.0 x8과 4.0 x4는 최대 대역폭(5.0 x16) 결과의 75% 정도 성능을 보였으며, 가장 느린 옵션인 3.0 x4는 성능이 54%로 감소했습니다. 이러한 조합으로 GPU를 실행하는 경우는 드물지만, DaVinci Resolve를 사용할 때는 이러한 대역폭 설정을 피하는 것이 좋습니다. After Effects (차트 #2)에서는 전체적으로 더 적은 영향을 보았습니다. 시각적으로 DaVinci Resolve와 달리 색상별로 클러스터화되지 않았고, 계단형 패턴도 덜 뚜렷했습니다. 하지만 가장 느린 세 가지 대역폭은 가장 느린 세 가지 결과를 보였습니다. 64 GB/s에서 16 GB/s까지의 모든 결과는 오차 범위 내에 있어 사실상 무작위로 나타났습니다. 8 GB/s(3.0 x8)에서는 성능 저하가 오차 범위를 벗어났지만, 이는 그룹 내에서만 해당합니다. 8 GB/s에서 4.0 x4는 더 느렸으며, 3.0 x4는 16 GB/s 이상의 구성보다 10% 느립니다. PCIe 대역폭에 대해 너무 걱정할 필요는 없지만, 3.0 x4와 같은 매우 낮은 대역폭 상황은 피하는 것이 좋습니다. 게임 개발 및 가상 제작: Unreal Engine Unreal Engine 벤치마크 결과는 DaVinci Resolve와 After Effects 사이 어딘가에 위치해 있다고 볼 수 있습니다. DaVinci Resolve처럼 대역폭에 따른 클러스터링이 명확하지만, After Effects처럼 구분된 "계단"이 많지 않습니다. 5.0 x16, x8, x4, 4.0 x16, x8, 3.0 x16은 모두 실제적으로 동일한 성능을 보였습니다. 3.0 x16은 약간 느릴 수도 있지만, 이는 테스트의 오차 범위 내에 있습니다. 그러나 4.0 x4(또는 동등한) 및 3.0 x8에서는 성능 저하가 나타났습니다. 4.0 x4에서는 평균 7%의 FPS 감소를 보였으며, 3.0 x4에서는 10%의 성능 저하가 있었습니다. 이 정도의 성능 저하는 크게 걱정할 수준은 아니지만, 여전히 염두에 두어야 합니다. 오프라인 렌더링: Blender & Octane 이 글에서는 V-Ray, Blender, Octane 세 가지 렌더링 벤치마크를 테스트했지만, V-Ray 결과는 특히 특이한 값이 나와 차트에는 포함시키지 않았습니다. 그러나 위의 결과 테이블에는 포함되어 있습니다. Blender와 Octane에서는 대역폭에 따른 성능 영향이 거의 없었습니다. Blender의 경우 평균 변화율은 약 5%였으며, Octane은 2.5%였습니다. 모든 결과가 테스트의 오차 범위 내에 있었기 때문에 많은 결론을 도출하기는 어렵습니다. 이는 오프라인 렌더링 애플리케이션의 특성 때문입니다. 이러한 애플리케이션은 작업을 모두 GPU VRAM에 로드하며, 로딩 시간은 성능 측정에 포함되지 않습니다. LLM(Large Language Model)의 경우 예외가 있을 수 있지만, 시스템 RAM에서 작업하는 것은 큰 성능 저하를 초래합니다. 따라서 초기 모델이나 씬 로딩 시간에 제한된 PCIe 대역폭이 영향을 미칠 수 있지만, 그 이후에는 거의 영향이 없습니다. 하지만 VRAM을 풀링하여 모델을 적재하는 상황에서는 PCIe 대역폭이 큰 영향을 미칠 수 있다는 점을 주의해야 합니다. AI: LLM (Llama) 마지막으로 Llama.cpp 벤치마크는 GPU 성능이 프롬프트 처리와 토큰 생성 작업에 어떻게 영향을 미치는지 살펴봤습니다. 두 작업 모두 PCIe 대역폭에 따른 성능 차이가 거의 무작위로 나타났으며, 특별한 패턴을 찾을 수 없었습니다. 성능 차이는 약 6%로 매우 작았습니다. 이는 대역폭이 AI 성능에 almost no 영향을 미친다는 것을 의미합니다. 그러나 우리의 LLM 벤치마크는 매우 작기 때문에, LLM 설정이 여러 GPU로 이루어져 있고 일부 모델을 시스템 RAM으로 이동시키는 경우 PCIe 대역폭이 큰 영향을 미칠 수 있습니다. 이 상황에서는 PCIe 대역폭이 큰 차이를 만들 수 있다는 점을 강조합니다. 현대 메인보드에서는 종종 하나의 PCIe 슬롯만이 전체 5.0 x16 대역폭을 지원합니다. 추가 슬롯들은 5.0 x8일 수도 있지만, 대부분 4.0 x4 이하로 제공됩니다. 이로 인해 다중 GPU 설정이나 확장 카드를 사용하는 시스템에서는 GPU의 PCIe 대역폭이 크게 감소할 수 있습니다. 대부분의 테스트에서 4.0 x4에서는 성능 저하가 크지 않았지만, 이는 모든 상황에 적용되지는 않습니다. 영상 편집 및 모션 그래픽 작업에서는 가장 큰 영향을 보았습니다. 5.0 x16, x8, 4.0 x16에서는 성능 차이가 거의 없었습니다. 그러나 그 아래로 내려갈수록, 특히 DaVinci Resolve에서는 차이가 나타났습니다. 이 애플리케이션에서는 3.0 x16가 10% 느렸으며, 일반적인 4.0 x4는 약 25% 느렸습니다. After Effects에서도 이 정도의 성능 저하는 줄었지만 여전히 존재했습니다. 다중 확장 카드를 사용하는 시스템에서 비디오 편집 애플리케이션을 위한 설정을 고려할 때, GPU에 할당되는 레인 수를 줄이는 것이 성능에 측정 가능한 영향을 미칠 수 있으므로 주의해야 합니다. Unreal Engine 벤치마크에서도 PCIe 대역폭이 성능에 영향을 미쳤습니다. 그러나 이 영향은 다소 미미합니다. 4.0 x4(또는 동등한) 이하로 대역폭이 감소할 때만 성능 저하가 명백히 나타났습니다. 평균 7%의 FPS 감소가 있었으며, 3.0 x4는 10% 느렸습니다. 이 정도의 성능 손실은 크게 걱정할 필요는 없지만, 여전히 염두에 두어야 합니다. 오프라인 렌더링 애플리케이션과 LLM 벤치마크에서는 PCIe 대역폭이 성능에 거의 영향을 미치지 않는 것으로 나타났습니다. 이는 작업이 GPU VRAM에 완전히 로드되기 때문입니다. 초기 모델 또는 씬 로딩 시간에는 PCIe 대역폭이 영향을 미칠 수 있지만, 그 이후에는 거의 무시할 수 있을 정도입니다. 그러나 VRAM을 풀링하여 모델을 적재하는 경우 PCIe 대역폭이 큰 영향을 미칠 수 있습니다. 우리가 판매하는 시스템을 구성할 때는 성능 극대화와 고객이 필요한 확장 카드 지원 사이의 균형을 맞춥니다. 이는 종종 주 GPU를 PCIe 5.0 x8로 설정하여 대역폭을 절반으로 줄이는 것을 의미합니다. 그러나 이 글에서 보여준 것처럼, 이 정도의 대역폭 감소는 실제 성능에는 큰 영향을 미치지 않습니다. 몇몇 드문 상황을 제외하고, 최신 메인보드가 PCIe 5.0을 지원한다면 GPU를 x8 속도로 작동시키는 것은 문제가 되지 않습니다. 그러나 저가 메인보드에서는 GPU가 4.0 x4로 작동해야 하므로 성능 저하가 발생할 수 있습니다. 콘텐츠 제작 워크스테이션을 찾고 계신가요? 당신의 워크플로에 맞춰 컴퓨터를 맞춤 제작합니다. 시작점이 모호하다면, 오늘 당장 기술 컨설턴트에게 문의하세요.