11일 전

FSA-Net: 단일 이미지로부터 헤드 포즈 추정을 위한 미세 구조 집합 학습

{ Yung-Yu Chuang, Yen-Yu Lin, Yi-Ting Chen, Tsun-Yi Yang}
FSA-Net: 단일 이미지로부터 헤드 포즈 추정을 위한 미세 구조 집합 학습
초록

이 논문은 단일 이미지로부터 헤드 포즈 추정을 위한 새로운 방법을 제안한다. 기존의 방법들은 주로 특징점(landmark) 또는 깊이(depth) 추정을 통해 헤드 포즈를 예측하는 방식을 사용하였으며, 이는 필요 이상의 계산량을 요구하는 경향이 있었다. 본 논문의 방법은 회귀(regression) 및 특징 집약(feature aggregation) 기반으로 설계되었으며, 모델의 컴팩트함을 확보하기 위해 소프트 스테이지 회귀(soft stagewise regression) 방식을 채택하였다. 기존의 특징 집약 방법들은 입력을 특징들의 집합(bag of features)으로 간주함으로써 특징 맵 내에서의 공간적 관계를 무시하는 문제가 있었다. 본 논문에서는 집약 전에 특징들을 공간적으로 그룹화하기 위한 세밀한 구조 맵핑(fine-grained structure mapping)을 학습하는 방식을 제안한다. 이 세밀한 구조는 부분 기반 정보(part-based information)와 풀링된 값(pooled values)을 제공하며, 공간적 위치에 대한 학습 가능한(learnable) 및 비학습 가능한(non-learnable) 중요도를 활용함으로써 다양한 모델 변형을 생성하고, 보완적인 앙상블(complementary ensemble)을 구성할 수 있다. 실험 결과, 본 방법은 특징점 기반 또는 깊이 기반의 기존 최첨단 방법들은 물론, 특징점이 없는 방법들까지도 모두 초월하는 성능을 보였다. 단일 RGB 프레임을 입력으로 사용함에도 불구하고, RGB-D 또는 RGB-시간 정보를 활용하는 다중 모달리티(multi-modality) 방법들보다 요각(yaw angle) 추정 성능이 뛰어났으며, 모델의 메모리 오버헤드는 기존 방법들보다 100배 이상 작았다.

FSA-Net: 단일 이미지로부터 헤드 포즈 추정을 위한 미세 구조 집합 학습 | 최신 연구 논문 | HyperAI초신경