17일 전

PE-Former: 포즈 추정 트랜스포머

Paschalis Panteleris, Antonis Argyros
PE-Former: 포즈 추정 트랜스포머
초록

비전 트랜스포머 아키텍처는 이미지 분류 작업에서 매우 효과적임이 입증되었다. 트랜스포머를 활용하여 더 도전적인 비전 작업을 해결하기 위한 노력은 특징 추출을 위해 컨볼루션 네트워크(CNN) 백본을 활용하고 있다. 본 논문에서는 2차원 신체 자세 추정 문제에 순수한 트랜스포머 아키텍처(즉, CNN 백본을 포함하지 않는 아키텍처)를 사용하는 것에 대해 연구한다. 우리는 COCO 데이터셋에서 두 가지 ViT 아키텍처를 평가하였으며, 인코더-디코더 구조의 트랜스포머 아키텍처를 사용할 경우 이 문제에 대해 최신 기술 수준(SOTA)의 성능을 달성할 수 있음을 입증하였다.

PE-Former: 포즈 추정 트랜스포머 | 최신 연구 논문 | HyperAI초신경