NVIDIA CUDA-가속 VC-6로 고성능 비전 AI 데이터 파이프라인 구축: 선택적 디코딩과 GPU 병렬 처리로 데이터 스트레인 해결
NVIDIA는 CUDA 기반 VC-6 코덱을 통해 고성능 비전 AI 데이터 파이프라인을 구축할 수 있는 새로운 솔루션을 공개했다. VC-6는 SMPTE에서 표준으로 정의한 비디오 코덱으로, 계층적 다중 해상도 구조를 기반으로 하여 GPU의 병렬 처리 능력과 자연스럽게 맞물린다. 기존 CPU 기반 또는 OpenCL 구현과 달리 CUDA로 구현된 VC-6는 비디오 데이터의 일부만 요청해도 필요한 데이터만 읽어내는 '선택적 데이터 재현' 기능을 지원해 I/O 부하를 최대 72%까지 줄일 수 있다. 특히 AI 모델 훈련에 필요한 특정 영역(ROI)이나 해상도(LoQ)만 추출할 수 있어, 전체 파일을 디코딩하고 리사이징하는 기존 방식보다 훨씬 효율적이다. NVIDIA RTX PRO 6000 기준으로 테스트한 결과, CUDA 기반 디코딩은 CPU 및 OpenCL 대비 약 3배 이상 빠른 성능을 보였다. 특히 CUDA는 GPU의 대규모 병렬 처리를 최대한 활용할 수 있어, 단일 이미지 디코딩 시에도 GPU 활용도를 크게 향상시킨다. Nsight 프로파일링을 통해 업샘플링 체인의 오버헤드와 작은 그리드 크기로 인한 GPU 자원 낭비 문제를 진단했으며, CUDA 그래프나 커널 병합 기법 등을 통해 향후 성능을 추가 개선할 계획이다. 현재 VC-6 CUDA 라이브러리는 알파 버전이지만, PyTorch, CuPy 등 AI 생태계와의 원활한 통합이 가능하며, GPU 메모리에 직접 출력하는 __cuda_array_interface__를 지원해 CPU 복사 없이 모델에 바로 전달할 수 있다. 이는 고성능 AI 파이프라인에서 데이터 공급 속도가 GPU 성능을 제한하는 ‘GPU 스터빙’ 문제를 극복하는 핵심 기술로 평가된다.