HyperAIHyperAI
il y a 7 jours

Tous les tokens ne se valent pas : analyse visuelle centrée sur l’humain via un Transformer basé sur le regroupement de tokens

Wang Zeng, Sheng Jin, Wentao Liu, Chen Qian, Ping Luo, Wanli Ouyang, Xiaogang Wang
Tous les tokens ne se valent pas : analyse visuelle centrée sur l’humain via un Transformer basé sur le regroupement de tokens
Résumé

Les transformateurs de vision ont connu un grand succès dans de nombreuses tâches de vision par ordinateur. La plupart des méthodes génèrent des tokens visuels en divisant une image en une grille régulière et fixe, en traitant chaque cellule comme un token. Toutefois, dans les tâches de vision centrées sur l’humain, toutes les régions n’ont pas la même importance : par exemple, le corps humain nécessite une représentation fine avec un grand nombre de tokens, tandis que l’arrière-plan peut être modélisé avec très peu de tokens. Pour résoudre ce problème, nous proposons un nouveau transformateur de vision, appelé Token Clustering Transformer (TCFormer), qui fusionne les tokens par regroupement progressif, permettant ainsi de combiner des tokens provenant de localisations différentes selon des formes et des tailles flexibles. Les tokens de TCFormer peuvent non seulement se concentrer sur les régions importantes, mais aussi ajuster leur forme pour s’adapter aux concepts sémantiques, tout en adoptant une résolution fine dans les régions contenant des détails critiques, ce qui est particulièrement bénéfique pour capturer des informations détaillées. Des expérimentations étendues montrent que TCFormer surpasse de manière cohérente ses prédécesseurs sur diverses tâches exigeantes centrées sur l’humain et sur différentes bases de données, notamment l’estimation de posture du corps entier sur COCO-WholeBody et la reconstruction de maillage 3D du corps humain sur 3DPW. Le code est disponible à l’adresse suivante : https://github.com/zengwang430521/TCFormer.git

Tous les tokens ne se valent pas : analyse visuelle centrée sur l’humain via un Transformer basé sur le regroupement de tokens | Articles de recherche récents | HyperAI