2달 전

단계적 듀얼 비전 트랜스포머를 이용한 정확한 얼굴 랜드마크 검출

Dang, Ziqiang ; Li, Jianfang ; Liu, Lin
단계적 듀얼 비전 트랜스포머를 이용한 정확한 얼굴 랜드마크 검출
초록

얼굴 랜드마크 검출은 많은 하류 응용 분야에서 컴퓨터 비전의 기본 문제입니다. 본 논문에서는 두 가지 독특한 설계, 즉 듀얼 비전 트랜스포머(Dual Vision Transformer, D-ViT)와 장기 스킵 연결(Long Skip Connections, LSC)을 기반으로 하는 새로운 얼굴 랜드마크 검출기를 소개합니다. 피처 맵의 채널 차원이 본질적으로 히트맵 공간의 선형 기저를 나타낸다는 관찰에 근거하여, 우리는 채널 분할 ViT(Channel-split ViT)을 통해 이러한 선형 기저 간의 상호 연관성을 학습하여 랜드마크 간의 고유한 기하학적 관계를 모델링하는 방법을 제안합니다. 우리는 이러한 채널 분할 ViT을 표준 비전 트랜스포머(즉, 공간 분할 ViT)에 통합하여 우리의 듀얼 비전 트랜스포머를 구성하고 예측 블록을 형성합니다. 또한 중간 감독에 의해 유용한 정보가 버려지는 것을 방지하기 위해 모든 예측 블록에 저수준 이미지 특징을 전달하기 위한 장기 스킵 연결을 사용하는 것을 제안합니다. 광범위한 실험을 통해 WFLW, COFW, 300W 등 널리 사용되는 벤치마크에서 우리 제안 모델의 성능을 평가하였으며, 실험 결과는 우리의 모델이 이 세 가지 벤치마크 모두에서 이전 최고 수준(SOTA) 모델들을 능가함을 보여주었습니다.

단계적 듀얼 비전 트랜스포머를 이용한 정확한 얼굴 랜드마크 검출 | 최신 연구 논문 | HyperAI초신경