HyperAI초신경
Back to Headlines

NVIDIA Warp와 Gaussian Splatting으로 로봇의 디지털 트윈 구축

3일 전

NVIDIA Warp와 Gaussian Splatting을 활용한 로봇의 정신 모델 구축 이 글은 물리 세계의 동적 디지털 표현을 구축하는 유망한 방향에 대해 탐구합니다. 최근 연구에서 이 주제에 대한 관심이 높아지고 있으며, 로봇 환경에서 실제 세계와 실시간으로 동기화되는 디지털 트윈을 만드는 방법을 소개합니다. 이러한 트윈은 다양한 후속 작업을 지원하고 향상시키는 풍부한 상태 정보를 제공할 수 있습니다. 사람들은 시각을 통해 세계의 내부 모델을 쉽게 구축합니다. 우리는 눈에서 받아들인 평면 이미지를 일관되고 세 가지 차원의 환경으로 해석하며, 이 상상된 공간에서 물리적인 상호작용을 시뮬레이션하고 결과를 예측하며 무 Seamless하게 적응할 수 있습니다. 눈을 감아도 물체를 움직이는 모습을 "보"면서 상상할 수 있고, 다시 눈을 뜨면 상상과 현실 사이의 불일치를 조정할 수 있습니다. 로봇에서도 이러한 시각-물리적 추론을 복제하는 것은 물리 AI의 전방위적인 연구 분야이며, 점차 구현되기 시작하고 있습니다. Physically Embodied Gaussians라는 접근법의 핵심은 로봇이 실제 세계와 실시간으로 동기화되는 물리 인식 세계 모델을 유지할 수 있다는 개념입니다. 단순히 원시 이미지 스트림이나 오프라인 재구성에 의존하지 않고, 실시간으로 업데이트되는 물리 인식 세계 모델을 구축하는 것이 목표입니다. 명시적 시뮬레이션의 필요성 역사적으로, 물리 세계를 명시적으로 모델링하는 것은 3D 모델, 잘 조정된 역학, 그리고 실제 세계로 신뢰성 있게 전송될 수 있는 잘 모델링된 센서가 필요하기 때문에 어려운 문제였습니다. 그러나 미분 렌더링, 특히 Gaussian Splatting의 혁신과 현대의 분할 및 장면 이해 모델 덕분에 이제 몇 장의 이미지와 기본적인 물리적 사전 지식으로 시뮬레이터를 생성할 수 있습니다. 우리 적용 사례에서는 시뮬레이터의 모델링 정확도가 중요하지 않아, 실시간 이미지 관찰을 통해 지속적으로 감독하고 수정할 수 있기 때문입니다. 미분 렌더링을 통한 지속적인 시각적 감독 Physically Embodied Gaussians에서 미분 렌더링은 시뮬레이터의 초기화와 감독 두 가지 역할을 합니다. 감독은 시뮬레이터의 상태를 지속적으로 조정하여 렌더링된 이미지가 실제 세계의 관찰과 일치하도록 하는 것입니다. 이는 약 30 Hz의 속도로 작동하는 물리 엔진과 결합되어 강력한 피드백 루프를 형성합니다. 시뮬레이터는 약 33 밀리초 동안만 정확하면 됩니다. 만약 시뮬레이션이 비틀어진다면, 렌더링 시스템이 빠르게 이를 수정합니다. 실제로, 이 메커니즘은 시뮬레이션의 오류를 보완하여 초기화가 불완전한 물리 모델조차 시간이 지남에 따라 정확성을 유지할 수 있게 합니다. Gaussian Splatting을 렌더러로 사용하고, 빠른 현대 GPU를 활용하면 이 전체 프로세스를 실시간으로 실행할 수 있습니다. 강력한 사전 지식 덕분에 카메라가 적게 필요해짐 Gaussian Splatting 시스템은 일반적으로 30개 이상의 카메라가 필요해 로봇 응용 프로그램에서는 실현 가능성이 낮았습니다. 우리는 로봇 환경에서 사용 가능한 사전 지식을 활용하여 이 문제를 해결합니다. 예를 들어: 로봇의 위치와 자세 물체의 무게와 질량 분포 표면 거칠기와 마찰 계수 이런 사전 정보 덕분에 시각적 재현을 넘어 물리적으로도 견고한 표현을 구축할 수 있고, 훨씬 적은 수의 카메라로도 안정적으로 작동할 수 있습니다. 두 가지 표현: 입자와 Gaussian 우리는 시뮬레이터를 두 가지 주요 구성 요소 중심으로 구축했습니다: 입자(Particles): 물리 시스템에 의해 작동됩니다. Gaussian: Gaussian Splatting을 통해 렌더링됩니다. 입자는 Gaussian의 움직임을 주도하며, 미분 렌더링에서 발생하는 시각적 오류는 입자를 다시 맞추는 교정력을 생성합니다. 이 두 하위 시스템은 물리학이 시각을 움직이고, 시각이 물리학을 교정하는 폐루프를 형성합니다. 이는 환경에 대한 실시간으로 시각적이고 물리적으로 정확한 모델을 유지할 수 있게 합니다. 이 모델은 적응 가능, 효율적, 그리고 지각에 기반한 특징을 가지고 있습니다. NVIDIA Warp와 gsplat로 구축 우리 시뮬레이터는 물리 엔진과 시각 도구로 NVIDIA Warp를, 미분 렌더링으로 gsplat를 사용합니다. 더 많은 기술적 세부사항, 데모, 오픈 소스 코드는 https://embodied-gaussians.github.io/에서 확인할 수 있습니다. 산업 내부자의 평가 및 회사 프로필 이 접근법은 로봇이 실제 세계와 더욱 밀접하게 상호작용할 수 있도록 하는 중요한 발전이라는 것이 업계 전문가들의 평가입니다. NVIDIA는 고급 물리 엔진과 렌더링 도구를 제공하여 이러한 혁신을 가능하게 하는 선두주자로 자리 잡고 있습니다. Physically Embodied Gaussians는 로봇 공학 분야에서의 실시간 시각-물리적 시뮬레이션의 잠재력을 크게 높여, 미래의 로봇 시스템들이 더욱 인간처럼 행동할 수 있게 할 것으로 기대됩니다.

Related Links