3달 전

I2L-MeshNet: 단일 RGB 이미지로부터 정확한 3D 인간 자세 및 메시 추정을 위한 이미지에서 리셀로의 예측 네트워크

Gyeongsik Moon, Kyoung Mu Lee
I2L-MeshNet: 단일 RGB 이미지로부터 정확한 3D 인간 자세 및 메시 추정을 위한 이미지에서 리셀로의 예측 네트워크
초록

이전의 이미지 기반 3D 인간 자세 및 메시 추정 방법들은 입력 이미지로부터 인간 메시 모델의 파라미터를 추정하는 방식을 사용했다. 그러나 입력 이미지의 픽셀 간 공간적 관계를 파괴하기 때문에, 직접적으로 파라미터를 회귀하는 것은 매우 비선형적인 매핑이 된다. 또한 예측 불확실성을 모델링할 수 없어 학습 과정을 더욱 어렵게 만든다. 이러한 문제를 해결하기 위해, 우리는 이미지에서 리셀(라인+픽셀)로의 예측을 수행하는 I2L-MeshNet이라는 신경망을 제안한다. 제안한 I2L-MeshNet은 각 메시 정점의 좌표에 대해 1차원 히트맵 상에서 리셀별 확률을 예측함으로써, 직접적인 파라미터 회귀 대신 간접적인 예측을 수행한다. 리셀 기반의 1차원 히트맵은 입력 이미지 내의 공간적 관계를 유지하면서 동시에 예측 불확실성도 모델링할 수 있다. 이미지에서 리셀로의 예측 방식의 장점을 입증하고, 제안한 I2L-MeshNet이 기존 방법들을 초월함을 보여준다. 코드는 공개되어 있으며, 다음 링크에서 확인할 수 있다: https://github.com/mks0601/I2L-MeshNet_RELEASE.