7일 전

모든 토큰이 동일한 것은 아니다: 토큰 클러스터링 트랜스포머를 통한 인간 중심의 시각적 분석

Wang Zeng, Sheng Jin, Wentao Liu, Chen Qian, Ping Luo, Wanli Ouyang, Xiaogang Wang
모든 토큰이 동일한 것은 아니다: 토큰 클러스터링 트랜스포머를 통한 인간 중심의 시각적 분석
초록

비전 트랜스포머는 다양한 컴퓨터 비전 작업에서 큰 성공을 거두었다. 대부분의 기법은 이미지를 정규적이고 고정된 격자로 나누어 각 셀을 토큰으로 간주하는 방식으로 비전 토큰을 생성한다. 그러나 인간 중심의 비전 작업에서는 모든 영역이 동일한 중요도를 가지지 않는다. 예를 들어, 인간의 몸체는 많은 토큰을 사용해 세밀한 표현이 필요하지만, 이미지의 배경은 적은 수의 토큰으로도 충분히 모델링할 수 있다. 이러한 문제를 해결하기 위해, 우리는 점진적인 클러스터링을 통해 토큰을 병합하는 새로운 비전 트랜스포머인 '토큰 클러스터링 트랜스포머(TCFormer)'를 제안한다. TCFormer은 서로 다른 위치에서 오는 토큰을 유연한 형태와 크기로 병합할 수 있다. 이로 인해 TCFormer의 토큰은 중요한 영역에 집중할 뿐만 아니라, 의미적 개념에 맞게 토큰의 형태를 조정하고, 중요한 세부 정보가 포함된 영역에는 높은 해상도를 적용할 수 있다. 이러한 특성은 세부 정보를 효과적으로 포착하는 데 유리하다. 광범위한 실험 결과, TCFormer은 COCO-WholeBody에서의 전신 포즈 추정 및 3DPW에서의 3D 인간 메시 재구성과 같은 다양한 도전적인 인간 중심 작업과 데이터셋에서 기존 대비 일관되게 우수한 성능을 보였다. 코드는 https://github.com/zengwang430521/TCFormer.git 에서 제공된다.

모든 토큰이 동일한 것은 아니다: 토큰 클러스터링 트랜스포머를 통한 인간 중심의 시각적 분석 | 최신 연구 논문 | HyperAI초신경