2달 전

ConvFormer: 3D 인간 자세 추정을 위한 동적 다중 헤드 컨볼루션 주의를 활용한 트랜스포머 모델의 매개변수 축소

Diaz-Arias, Alec ; Shin, Dmitriy
ConvFormer: 3D 인간 자세 추정을 위한 동적 다중 헤드 컨볼루션 주의를 활용한 트랜스포머 모델의 매개변수 축소
초록

최근, 완전 트랜스포머 구조가 3D 인간 자세 추정 작업에서 사실상의 컨볼루션 구조를 대체하고 있습니다. 본 논문에서는 새로운 동적 다중 헤드 컨볼루션 자기 주의 메커니즘(dynamic multi-headed convolutional self-attention)을 활용한 단일 카메라 3D 인간 자세 추정을 위한 혁신적인 컨볼루션 트랜스포머인 ConvFormer을 제안합니다. 우리는 개별 프레임 내에서와 동작 시퀀스 전반에 걸쳐 인간 관절 관계를 포괄적으로 모델링하기 위해 공간적 및 시간적 컨볼루션 트랜스포머를 설계하였습니다. 또한, 시간적 ConvFormer에서 사용되는 시간적 관절 프로파일(temporal joints profile)이라는 새로운 개념을 도입하여 관절 특징의 로컬 이웃에 대해 완전한 시간 정보를 즉시 융합할 수 있도록 하였습니다.우리는 Human3.6M, MPI-INF-3DHP, 그리고 HumanEva라는 세 가지 일반적인 벤치마크 데이터셋에서 우리의 방법론을 정량적으로 및 정성적으로 검증하였습니다. 광범위한 실험을 통해 최적의 하이퍼파라미터 집합을 식별하였으며, 이러한 실험 결과는 우리가 이전 트랜스포머 모델들에 비해 매개변수를大幅减少하면서도 모든 세 가지 데이터셋에서 최고 수준(SOTA) 또는 SOTA에 근접한 성능을 달성하였음을 입증하였습니다. 또한, H36M에서 Protocol III에 대해 GT 및 CPN 감지 입력 모두에서 SOTA를 달성하였으며, MPI-INF-3DHP 데이터셋에서는 세 가지 지표 모두에서 SOTA를, HumanEva에서는 Protocol II 하에서 세 명의 피실험자 모두에서 SOTA를 달성하였습니다.注:在最后一句中,“大幅减少”被误译为“大幅减少”,正确的韩语翻译应该是“매개변수를 크게 줄였음”。以下是修正后的版本:우리는 Human3.6M, MPI-INF-3DHP, 그리고 HumanEva라는 세 가지 일반적인 벤치마크 데이터셋에서 우리의 방법론을 정량적으로 및 정성적으로 검증하였습니다. 광범위한 실험을 통해 최적의 하이퍼파라미터 집합을 식별하였으며, 이러한 실험 결과는 우리가 이전 트랜스포머 모델들에 비해 매개변수를 크게 줄였음면서도 모든 세 가지 데이터셋에서 최고 수준(SOTA) 또는 SOTA에 근접한 성능을 달성하였음을 입증하였습니다. 또한, H36M에서 Protocol III에 대해 GT 및 CPN 감지 입력 모두에서 SOTA를 달성하였으며, MPI-INF-3DHP 데이터셋에서는 세 가지 지표 모두에서 SOTA를, HumanEva에서는 Protocol II 하서 세 명의 피실험자 모두에서 SOTA를 달성하였습니다.

ConvFormer: 3D 인간 자세 추정을 위한 동적 다중 헤드 컨볼루션 주의를 활용한 트랜스포머 모델의 매개변수 축소 | 최신 연구 논문 | HyperAI초신경