8일 전

에피폴라 트랜스포머

Yihui He, Rui Yan, Katerina Fragkiadaki, Shoou-I Yu
에피폴라 트랜스포머
초록

동기화되고 캘리브레이션된 다중 시점 환경에서 3차원 인간 관절을 국지화하는 일반적인 접근 방식은 두 단계로 구성된다. (1) 각 시점에 별도로 2차원 검출기를 적용하여 2차원 공간에서 관절을 탐지하고, (2) 각 시점의 2차원 탐지 결과를 기반으로 강건한 삼각측량(triangulation)을 수행하여 3차원 관절 위치를 추정하는 것이다. 그러나 첫 번째 단계에서 2차원 검출기는 오버랩(occlusion)이나 비직각 시점(oblique viewing angles)과 같은 어려운 케이스를 순수하게 2차원 공간에서 해결하려는 데 한계가 있으며, 이는 3차원 정보를 활용하지 않고서는 더 나은 해법을 도출하기 어려운 경우이다. 따라서 우리는 2차원 검출기가 3차원 인지 특징(3D-aware features)을 활용하여 2차원 자세 추정 성능을 향상시킬 수 있도록 하는 차별 가능한 '에피폴라 트랜스포머(epipolar transformer)' 를 제안한다. 그 핵심 아이디어는: 현재 시점의 2차원 위치 ( p )에 대해, 이에 대응하는 이웃 시점의 점 ( p' )을 먼저 찾은 후, ( p' )에서의 특징과 ( p )에서의 특징을 결합함으로써 ( p ) 위치에 대해 3차원 인지 특징을 생성하는 것이다. 스테레오 매칭(stereo matching)의 아이디어를 영감으로 삼아, 에피폴라 트랜스포머는 에피폴라 제약(epipolar constraints)과 특징 매칭(feature matching)을 활용하여 ( p' ) 위치의 특징을 근사한다. InterHand 및 Human3.6M 데이터셋에서의 실험 결과, 제안한 방법이 기존 기준 모델 대비 일관된 성능 향상을 보였다. 특히 외부 데이터를 사용하지 않은 조건에서, ResNet-50 백본과 256×256 이미지 크기로 학습한 Human3.6M 모델은 최신 기술 대비 4.23mm의 개선을 달성하였으며, MPJPE(평균 정점 오차)는 26.9mm를 기록하였다.

에피폴라 트랜스포머 | 최신 연구 논문 | HyperAI초신경