NVIDIA, 고성능 비디오 편집·저정밀도 AI 훈련·음성 AI 모델 선보여
NVIDIA는 소비자용 4:2:2 비디오 카메라의 대중화와 진보하는 생성 AI 비디오 모델을 통해 비디오 편집 및 콘텐츠 제작 분야에서 혁신을 이끌고 있다. 4:2:2 비디오 카메라는 표준 4:2:0 카메라에 비해 두 배의 색상 정보를 캡처할 수 있으며, 파일 크기는 30%만 늘어난다. 이로 인해 비디오 편집 시 더 정확한 색상 표현과 우수한 컬러 그레이딩 결과를 얻을 수 있다. 그러나 이러한 추가 색상 정보는 플레이백 시 더 많은 컴퓨테이션 파워가 필요해, 종종 프록시 생성이라는 시간 소모적인 과정을 거쳐야 했다. 하지만 GeForce RTX 50 시리즈와 NVIDIA RTX PRO Blackwell 시리즈는 4:2:2 비디오의 인코딩과 디코딩을 하드웨어로 가속화하여 이 문제를 해결한다. 이들 GPU는 10배 빠른 4:2:2 인코딩 성능을 제공하며, 최대 8K 75프레임_PER_초의 디코딩을 지원한다. 주요 비디오 편집 앱인 Blackmagic Design의 DaVinci Resolve, CapCut, Wondershare Filmora, Adobe Premiere Pro 등은 NVIDIA 하드웨어 가속화를 지원한다. DaVinci Resolve Studio 20은 NVIDIA TensorRT를 통한 AI 성능 최적화를 포함해 새로운 AI 효과를 추가했다. 예를 들어, UltraNR Noise Reduction은 디지털 노이즈를 효과적으로 줄이며, Magic Mask는 객체나 사람을 신속하게 선택 및 추적할 수 있도록 한다. Topaz Video AI Pro는 AI 모델을 사용해 비디오 해상도를 4K, 8K, 16K까지 향상시키며, Topaz Starlight mini는 고전적인 8/16mm 필름이나 미니-DV 비디오를 처리하는 데 특화된 로컬 디피션 모델이다. Adobe Premiere Pro는 Media Intelligence와 Enhance Speech 등의 새로운 AI 기능을 도입해, 비디오 분석과 오디오 품질 향상을 빠르게 수행한다. NVIDIA GeForce RTX 50 시리즈와 RTX PRO Blackwell 시리즈는 4:2:2 비디오 편집을 위한 고성능 하드웨어 디코더(NVDEC)를 탑재하고 있어, 고해상도 비디오 스트림의 부드러운 재생과 스크루빙을 가능하게 한다. 또한, 다중 카메라 편집이나 동시에 여러 영상 앵글을 리뷰하는 데 필요한 복잡한 워크플로를 지원한다. 이러한 GPU들은 CUDA 코어를 통해 비디오와 이미지 처리 효과를 가속화하고, 렌더링 시간을 단축하며, 고해상도 비디오 작업의 실시간 프리뷰를 가능하게 한다. NVIDIA는 또한 대형 언어 모델(LLM)의 효율적인 학습과 추론을 위해 FP8(8비트 부동소수점) 형식을 도입했다. FP8은 BF16(16비트 뇌 부동소수점)보다 더 낮은 비트 수를 사용하지만, 동일한 수준의 정확도를 유지하면서 컴퓨테이션, 메모리, 대역폭을 절약한다. NVIDIA Blackwell 아키텍처는 FP8 Tensor Cores를 포함해, 각각의 작은 블록에 대해 개별 스케일링 팩터를 할당하는 블록 스케일링 전략을 지원한다. 이는 텐서 내의 값 변화를 더 정확히 반영하여, 극단적인 값들을 잘 표현할 수 있게 한다. FP8 학습 레시피는 텐서 스케일링과 블록 스케일링으로 나뉘며, 각각의 장단점을 고려해 성능과 정확도를 극대화할 수 있다. NVIDIA는 또한 자동 음성 인식(ASR) 분야에서 혁신을 이끌고 있다. NVIDIA Parakeet TDT 0.6B v2는 6억 파라미터를 갖춘 ASR 모델로, Hugging Face ASR 리더보드에서 최고 성능을 보이고 있다. 이 모델은 6.05%의 산업 최저 단어 오류율(WER)을 기록하며, 초당 3386.02의 빠른 추론 성능을 자랑한다. 또한, 정확한 타임스탬프와 노래 가사 전사를 포함한 다양한 기능을 제공한다. NVIDIA NeMo Canary 모델들 역시 1억 파라미터의 다국어 ASR 모델로, Hugging Face ASR 리더보드에서 상위권에 위치하며, 25개 언어를 지원한다. 이 모델들은 병원, 공항 등 소음이 많은 환경에서도 정확한 전사를 제공한다. NVIDIA의 Riva NIM 마이크로서비스는 기업용 음성 솔루션, 다국어 고객 지원, 차세대 미디어 애플리케이션 등 다양한 분야에서 활용될 수 있다. Riva NIM은 NVIDIA AI Enterprise, NGC, Hugging Face 등을 통해 쉽게 접근할 수 있으며, 기업이 요구하는 고성능과 안정성을 제공한다. 이러한 혁신은 NVIDIA가 비디오 편집, AI 생성, 그리고 자동 음성 인식 분야에서 계속해서 선두를 유지할 수 있는 밑거름이 되고 있다. 전문가들과 업계의 의견에 따르면, NVIDIA의 이러한 기술 발전은 콘텐츠 제작자가 더 높은 품질의 작업물을 더 빠르게 생산할 수 있게 하는 중요한 전환점이 되고 있다. GeForce RTX 50 시리즈와 RTX PRO Blackwell 시리즈, 그리고 FP8 학습 기술은 콘텐츠 제작 분야에서의 성능을 크게 향상시키며, NVIDIA의 speech AI 모델들은 자동 음성 인식의 정확도와 속도를 새롭게 설정하고 있다. 이러한 기술들은 NVIDIA의 지속적인 혁신을 통해 콘텐츠 제작과 AI 적용 분야에서 더 많은 가능성을 열어놓고 있다.