17일 전

변별된 모달리티의 크로스 어텐션을 활용한 트랜스포머 기반 3D 인간 메시 복원

Junhyeong Cho, Kim Youwang, Tae-Hyun Oh
변별된 모달리티의 크로스 어텐션을 활용한 트랜스포머 기반 3D 인간 메시 복원
초록

최근 Transformer 인코더 아키텍처는 단일 이미지 기반 3차원 인간 메시 재구성에서 최첨단 성능을 달성하고 있으나, 방대한 수의 파라미터와 고비용의 계산을 요구한다. 이로 인해 메모리 오버헤드가 크고 추론 속도가 느려 실제 적용에 어려움이 있다. 본 논문에서는 단일 이미지로부터 3차원 인간 메시를 재구성하기 위한 새로운 Transformer 인코더-디코더 아키텍처인 FastMETRO를 제안한다. 우리는 인코더 기반 Transformer의 성능 저하 원인이 입력 토큰 간의 복잡한 상호작용을 유발하는 토큰 설계에 기인함을 규명하였다. 이를 통해 인코더-디코더 아키텍처를 도입하여 토큰 간 상호작용을 분리함으로써, 훨씬 적은 파라미터 수와 더 짧은 추론 시간을 요구하는 모델을 구현하였다. 또한, 인간 몸체의 형태학적 관계에 대한 사전 지식을 어텐션 마스킹과 메시 업샘플링 연산을 통해 도입함으로써, 더 빠른 수렴 속도와 높은 정확도를 달성할 수 있었다. 제안한 FastMETRO는 정확도와 효율성의 파레토 최적 경계를 개선하였으며, Human3.6M 및 3DPW 데이터셋에서 이미지 기반 기법들을 명확히 능가하였다. 더불어, FreiHAND 데이터셋을 활용한 실험을 통해 본 모델의 일반화 능력도 검증하였다.

변별된 모달리티의 크로스 어텐션을 활용한 트랜스포머 기반 3D 인간 메시 복원 | 최신 연구 논문 | HyperAI초신경