HyperAI초신경

저장대학교 연구팀은 NeRF 및 NV보다 훨씬 뛰어난 3D 뷰 합성을 위한 새로운 방법을 발표했습니다.

4년 전
헤드라인
神经小兮
特色图像

다양한 관점에서 촬영한 몇 개의 영상만으로도 인체의 360도 전체 이미지를 사각지대 없이 구축할 수 있습니다. AI의 상상력은 점점 더 강력해지고 있다고 말해야 할 것 같습니다. 이러한 도구는 미래에 영화 및 텔레비전 산업, 스포츠 프로그램 발표 등에 새로운 혁신을 가져올 수 있습니다.

미래에는 우리가 영화, 축구 경기, 콘서트 등을 보는 방식이 '자유시점 영상'으로 완전히 바뀔 수도 있습니다.

"무료 관점 영상"이 무엇인지 모르더라도 VR, AR 영상을 경험해보거나 3D 게임을 해본 적은 있을 겁니다. 이러한 영상은 모두 무료 관점 영상 범주에 속하며, 그 특징은 다음과 같습니다.어느 각도에서 보더라도 완벽한 몰입감을 느낄 수 있습니다.

시청자는 더 이상 감독의 렌즈에 국한되지 않고 모든 관점으로 전환할 수 있습니다.

이런 영상은 어떻게 촬영할 수 있을까? 일반적으로 전통적인 방식에서는 여러 대의 카메라로 다양한 각도에서 촬영한 후, 모든 각도의 영상을 결합합니다.

예를 들어, 여러 각도에서 이미지를 얻기 위해 카메라를 다양한 각도에 배치합니다.,최종 합성은 무료 관점 영상입니다

하지만 이 방법은 여러 대의 카메라에 의존하기 때문에 비용이 많이 들 뿐만 아니라 촬영 현장의 환경에 따라 제한을 받습니다.

이런 제한을 없앨 수 있는 또 다른 방법이 있습니다.다양한 각도에서 촬영한 인체 사진 몇 장을 입력하기만 하면 인체의 새로운 360° 3D 보기를 합성할 수 있습니다.이는 저장대학 연구자들이 최근 발표한 최신 결과입니다.

12월 말, 팀은 arxiv에 새로운 논문을 발표했습니다."신경체: 역동적인 인간의 새로운 관점 합성을 위한 구조화된 잠재 코드를 갖춘 암묵적 신경 표현", 희소한 다중 시점 비디오를 사용하여 역동적인 3D 인체의 새로운 관점을 합성하여 새로운 인체 표현인 Neural Body를 제안했습니다. 실험적 검증 결과, 이 방법이 이전의 다른 방법보다 우수하다는 것이 밝혀졌습니다.

신경체: 역동적인 초상화의 새로운 관점 합성을 위한 구조화된 잠재 암묵적 신경 표현
논문 주소: https://arxiv.org/pdf/2012.15838.pdf

이 논문을 쓴 7명의 저자는 모두 저장대학교에서 수학했거나 졸업했으며, 저장대학교 컴퓨터 지원 설계 및 그래픽스 국가중점연구실 출신입니다.그 중 후준 바오와 샤오웨이 저우가 모두 이 연구실의 교수입니다. 잉하오 쉬와 첸첸 왕은 학사 학위를 취득한 후, 각각 홍콩 중국 대학과 코넬 대학에서 박사 학위를 취득했습니다.

적은 양의 자료로도 고품질의 3D 뷰를 생성할 수 있습니다.

현재 우리가 보는 것은 영화, TV 프로그램, 스포츠 경기 등 단 하나의 카메라로 찍은 이미지입니다. 만약 "무료 관점 영상"을 받아서 원하는 것을 무엇이든 볼 수 있다면, 그것은 분명 신의 관점을 갖는 것과 같은 경험이 될 것입니다.

사실, AI 역시 최근 몇 년 동안 이 문제를 연구해 왔고 NeRF와 Neural Volumes(약칭 NV)와 같은 뷰 합성 솔루션을 만들어냈습니다.

그러나 기존 연구에 따르면 3D 장면의 암묵적 신경 표현을 학습하면 고밀도 입력 뷰 조건에서 좋은 뷰 합성 품질을 얻을 수 있음이 밝혀졌습니다. 그러나 뷰가 매우 희소하다면 표현 학습이 제대로 이루어지지 않을 것입니다.

NeRF(왼쪽 첫 번째)와 NV(가운데)의 효과와 새로운 방법의 비교,처음 두 가지는 왜곡과 변형이라는 문제점을 가지고 있습니다.

따라서 이러한 난제를 해결하기 위해 저장대학, 홍콩중문대학, 코넬대학의 연구팀은 비디오 프레임에 대한 관찰 결과를 통합하는 핵심 아이디어를 제안했습니다.

이 팀의 최신 연구 결과는 신경체를 제안했습니다.이는 서로 다른 프레임에 걸쳐 학습된 신경 표현이 변형 가능한 격자에 고정된 동일한 잠재 코드 세트를 공유한다고 가정하는 인체의 새로운 표현으로, 여러 프레임에 걸친 관찰 결과를 자연스럽게 통합할 수 있습니다.변형 가능한 메시는 또한 네트워크에 기하학적 지침을 제공하여 3D 표현을 보다 효과적으로 학습할 수 있도록 합니다.

Neural Body의 기본 아이디어

연구진은 새로 수집한 다중 뷰 데이터 세트에 대한 실험을 수행한 결과, 이 방법이 뷰 합성 품질 측면에서 기존 방법보다 큰 이점이 있음을 보여주었습니다.

데모에서 연구팀은 사람들이 다양한 동작을 하는 모습을 단안 영상에서 움직이는 형상을 재구성하는 방법을 시연했습니다.

4개 각도의 비디오 이미지에서 무료 관점 비디오 결과를 얻으세요

이 방법은 자유 시점 영상 합성 비용을 크게 줄여, 적어도 카메라 비용을 절감할 수 있으므로 적용 범위가 더 넓습니다.

5단계로 뉴럴 바디를 얻으세요

1. 구조화된 잠재 코드 

잠재 코드의 공간적 위치와 인간의 자세를 제어하기 위해 연구팀은 이러한 잠재 코드를 변형 가능한 인간 모델(SMPL)에 고정했습니다. SMPL은 SMPL 좌표계를 기준으로 모양 매개변수, 포즈 매개변수, 강체 변환 함수로 정의되는 스킨 정점 기반 모델입니다.

잠재 코드는 신경망과 함께 사용되어 사람의 지역적 기하학적 구조와 모습을 표현합니다. 이러한 코드를 변형 가능한 모델에 고정하면 동적인 사람을 표현할 수 있습니다. 연구팀은 역동적인 인물 표현을 통해 동일한 잠재 코드 세트를 프레임 전체의 암묵적 밀도 및 색상 도메인에 매핑하고 자연스럽게 관찰 결과를 통합하는 잠재 변수 모델을 구축했습니다.

2. 코드 확산 

구조화된 잠재 코드는 3D 공간에 희소하므로 잠재 코드를 직접 보간하면 대부분의 3D 지점에 대해 벡터가 0이 됩니다. 이 문제를 해결하기 위해 연구팀은 표면에 정의된 잠재 코드를 근처의 3차원 공간으로 확산시켰습니다.

코드의 확산은 세계 좌표계에서 사람의 위치와 방향에 영향을 받아서는 안 되므로, 코드의 위치를 SMPL 좌표계로 변환합니다.

코드 확산은 또한 구조화된 잠재 코드의 전역적, 지역적 정보를 집계하여 암묵적 도메인을 학습하는 데 도움이 됩니다.

3. 밀도 및 색상 회귀 

그림 (b)는 3D 공간의 모든 지점에서 밀도와 색상의 회귀를 요약한 것입니다.

연구팀은 보조 조명과 자체 그림자와 같은 시간에 따라 변하는 요소가 인체의 모습에 영향을 미친다는 것을 발견했습니다. 연구팀은 자동 디코더에서 영감을 얻어 각 비디오 프레임에 잠재 임베딩 프레임 t를 할당하여 시간적 변화 요소를 인코딩했습니다.

볼륨 렌더링 

팀은 주어진 관점에서 클래식 볼륨 렌더링(스테레오 렌더링이라고도 함) 기술을 사용하여 신경체를 2차원 이미지로 렌더링했습니다.

그런 다음 SMPL 모델을 기반으로 장면 경계를 추정하고 Neural Body는 이러한 점의 볼륨 밀도와 색상을 예측합니다.

볼륨 렌더링을 기반으로 렌더링된 이미지와 관찰된 이미지를 비교하여 모델을 최적화합니다.

5. 훈련 

프레임 기반 재구성 방법과 비교했을 때, 이 방법은 비디오의 모든 이미지를 활용하여 모델을 최적화하고 3D 구조를 복구하기 위한 정보가 더 많습니다.

또한, 해당 팀은 Adam 옵티마이저를 사용하여 Neural Body를 훈련시켰습니다. 훈련은 4개의 2080 Ti GPU에서 수행되었습니다. 총 300개 프레임의 4개 뷰 비디오의 경우, 훈련은 일반적으로 약 14시간이 걸립니다.

위의 5단계를 거치면 Neural Body는 적은 수의 뷰를 기반으로 자유 시점 영상 합성을 구현할 수 있으며, 다른 방법과 비교했을 때 그 효과가 현저히 우수합니다.

3가지 방식의 출력 결과의 PSNR(피크 신호 대 잡음비) 비교,값이 클수록 출력 이미지 품질이 좋아집니다.

참고: "OURS*" 및 "OURS"는 각각 비디오 1개 프레임에 대한 학습 결과와 비디오 4개 프레임에 대한 학습 결과를 나타냅니다.

AI의 두뇌 채우기 기술은 3D 효과를 더 쉽게 구현할 수 있게 해주며, 그 응용 분야는 영화 및 TV 산업과 라이브 스포츠 이벤트에만 국한되지 않습니다. 게임 개발자, 피트니스 강사, 3D 광고 제공자 등에게 업무 효율성과 효과성을 크게 향상시킬 수 있는 도구입니다.

미래에는 영화관이나 경기장에서 누구나 아이패드를 가지고 원하는 영상을 클릭해서 볼 수 있게 될까요?

프로젝트 홈페이지:

https://zju3dv.github.io/neuralbody/