HyperAI초신경
Back to Headlines

NVIDIA, AI로 3D 장면 편집 혁신… 단일 비디오에서 실감나는 수정 가능

10일 전

NVIDIA가 AI 모델인 DiffusionRenderer를 출시하며, 단일 비디오에서 편집 가능한 사진 같은 3D 장면 생성의 새로운 도약을 이루었습니다. 이 모델은 기존의 AI 비디오 생성 기술이 고정된 장면에만 효과적이었으나, 이제는 장면의 빛, 물질, 요소 등을 실제적으로 편집할 수 있는 기능을 제공합니다. 이는 영화 제작자, 디자이너, 창작자들이 AI를 진정한 창작 도구로 활용할 수 있게 하는 중요한 발전입니다. 기존의 방법과 새로운 방법: 패러다임의 전환 수십 년 동안 사진 같은 실감성을 구현하는 기술은 PBR(Physics-Based Rendering)에 의존해 왔습니다. PBR은 빛의 흐름을 정교하게 시뮬레이션하여 놀라운 결과를 만들어냈지만, 이 방법은 완벽한 디지털 설계도가 필수적이었습니다. 정확한 3D 기하학, 상세한 재료 텍스처, 그리고 정확한 조명 맵이 필요했으며, 이 데이터를 실제 세계에서 캡처하는 과정, 즉 역렌더링은 매우 어렵고 오류에 취약했습니다. 작은 오류도 최종 렌더링에 치명적인 문제를 일으킬 수 있어, PBR의 사용은 제어된 스튜디오 환경 외에는 제한되어 있었습니다. 또한, NeRFs와 같은 이전의 신경망 렌더링 기술은 정적 뷰 생성에 혁신적이었지만, 편집에는 한계가 있었습니다. 이러한 기술들은 빛과 재료를 장면에 "베이크"하여, 캡처 후 수정이 거의 불가능했습니다. DiffusionRenderer는 이러한 문제를 해결하기 위해 "장면의 속성"과 "렌더링 방법"을 하나의 통합 프레임워크로 처리합니다. 이 모델은 Stable Video Diffusion과 같은 강력한 비디오 확산 아키텍처를 기반으로 하며, 두 개의 신경망 렌더러를 사용하여 비디오를 처리합니다. 역렌더링 예시에서는 DiffusionRenderer가 얇은 구조물의 세부 정보와 정확한 금속성 및 거칠기 채널을 예측합니다. 또한 야외 장면에서도 뛰어난 일반성을 보여줍니다. 전방향 렌더링 방식은 고품질의 반사광과 그림자를 생성하여, 신경망 기반 기법보다 더 정확한 결과를 제공합니다. 핵심 전략: 현실 간극 극복을 위한 혁신적인 데이터 전략 지능적인 모델은 지능적인 데이터 없이는 아무 소용이 없습니다. DiffusionRenderer 연구팀은 완벽한 물리학과 불완전한 현실 사이의 미묘한 차이점을 모델에 가르치기 위해 두 가지 방면의 데이터 전략을 고안했습니다. 첫 번째로, 연구팀은 15만 개의 비디오로 구성된 대규모 합성 데이터셋을 구축했습니다. 수천 개의 3D 객체, PBR 재료, HDR 조명 맵을 사용하여 복잡한 장면을 만들고, 완벽한 경로 추적 엔진으로 렌더링했습니다. 이는 역렌더링 모델이 완벽한 "교과서"로부터 배울 수 있는 완벽한 참조 데이터를 제공했습니다. 두 번째로, 합성 데이터로만 훈련받은 역렌더링 모델이 실제 비디오에도 놀랍도록 잘 일반화됨을 발견한 연구팀은 1만 510개의 실제 세계 비디오(DL3DV10k)를 처리했습니다. 모델은 자동으로 G-버퍼 라벨을 생성하여, 실제 세계 장면 15만 개의 샘플 데이터셋을 구축했습니다. 이 데이터셋은 완벽하지 않은 내재적 속성 맵을 포함하고 있지만, 큰 규모의 데이터셋으로 작용하여 모델을 더욱 강화했습니다. 전방향 렌더링 모델은 이 완벽한 합성 데이터와 자동 라벨링된 실제 데이터를 함께 훈련시켜, "도메인 간극"을 극복하도록 설계되었습니다. LoRA(Low-Rank Adaptation) 모듈을 통해 모델은 노이즈가 많은 실제 데이터에 적응하면서도 합성 데이터에서 얻은 지식을 유지할 수 있습니다. 최고의 성능 DiffusionRenderer는 클래식 및 신경망 기반 최첨단 방법들과의 엄격한 비교에서 모든 평가 항목에서 우수한 성능을 보였습니다. 특히 전방향 렌더링 결과는 참조 경로 추적 결과(Path Traced GT)와 비교할 때 뛰어난 품질을 보여주었습니다. DiffusionRenderer를 활용할 수 있는 다양한 편집 기능 DiffusionRenderer는 단일 일상적인 비디오에서 시작하여, 모델이 먼저 역렌더링을 수행하여 장면을 이해한 후, 사용자가 속성을 편집하고, 다시 모델이 전방향 렌더링을 수행하여 새로운 사진 같은 비디오를 생성하는 간단한 워크플로우를 제공합니다. 그래픽 분야의 새로운 기초 DiffusionRenderer는 역렌더링과 전방향 렌더링을 하나의 강건한 데이터 드리븐 프레임워크에서 종합적으로 해결함으로써, 전통적인 PBR의 장벽을 완전히 해체합니다. 이는 사진 같은 렌더링을 VFX 전문가들이 강력한 하드웨어를 사용해야만 가능했던 독점적인 영역에서, 창작자, 디자이너, AR/VR 개발자들이 접근하기 쉬운 도구로 만드는 역할을 합니다. 최근 업데이트에서는 NVIDIA Cosmos와 강화된 데이터 큐레이션을 활용하여 비디오 디라이팅과 재라이팅 성능을 더욱 개선했습니다. 이는 기저 비디오 확산 모델이 더욱 강력해짐에 따라 출력 품질이 향상되는 유망한 트렌드를 보여줍니다. 이러한 개선은 기술을 더욱 매력적으로 만들고 있습니다. DiffusionRenderer는 Apache 2.0과 NVIDIA 오픈 모델 라이선스 하에 공개되었습니다. 이 모델은 여기에서 다운로드할 수 있습니다. 업계 인사이더의 평가와 회사 프로필 DiffusionRenderer의 출시는 그래픽 분야에서 중요한 전환점으로 평가받고 있습니다. 이 기술은 AI가 창작 분야에서 활용될 수 있는 범위를 크게 확장시키고, 실감형 콘텐츠 제작의 효율성을 크게 높일 것으로 기대됩니다. NVIDIA는 그래픽 기술의 선두 주자로서, 이러한 혁신적인 연구를 지원하고 후원함으로써 AI 기술의 발전에 크게 기여하고 있습니다.

Related Links