HyperAIHyperAI
vor 7 Tagen

Nicht alle Tokens sind gleich: menschenzentrierte visuelle Analyse mittels Token-Clustering-Transformer

Wang Zeng, Sheng Jin, Wentao Liu, Chen Qian, Ping Luo, Wanli Ouyang, Xiaogang Wang
Nicht alle Tokens sind gleich: menschenzentrierte visuelle Analyse mittels Token-Clustering-Transformer
Abstract

Vision-Transformer haben in vielen Aufgaben des maschinellen Sehens große Erfolge erzielt. Die meisten Methoden generieren visuelle Tokens, indem sie ein Bild in ein regelmäßiges und festes Gitter unterteilen und jedes Gitterfeld als Token behandeln. Allerdings sind nicht alle Bildbereiche in menschenzentrierten Vision-Aufgaben gleich wichtig: Während der menschliche Körper eine detaillierte Darstellung mit vielen Tokens erfordert, kann der Hintergrund des Bildes bereits mit wenigen Tokens gut modelliert werden. Um dieses Problem anzugehen, schlagen wir einen neuartigen Vision-Transformer namens Token Clustering Transformer (TCFormer) vor, der Tokens durch progressive Clustering-Verfahren zusammenführt, wobei die Tokens aus verschiedenen Positionen mit flexiblen Formen und Größen verschmolzen werden können. Die Tokens im TCFormer können nicht nur auf wichtige Bereiche fokussieren, sondern auch ihre Form an semantische Konzepte anpassen und eine feine Auflösung für Regionen mit kritischen Details verwenden, was besonders vorteilhaft für die Erfassung detaillierter Informationen ist. Ausführliche Experimente zeigen, dass der TCFormer konsistent gegenüber seinen Vorgängern auf verschiedenen anspruchsvollen, menschenzentrierten Aufgaben und Datensätzen abschneidet, darunter die Ganzkörper-Pose-Schätzung auf COCO-WholeBody und die 3D-Mensch-Mesh-Rekonstruktion auf 3DPW. Der Quellcode ist unter https://github.com/zengwang430521/TCFormer.git verfügbar.

Nicht alle Tokens sind gleich: menschenzentrierte visuelle Analyse mittels Token-Clustering-Transformer | Neueste Forschungsarbeiten | HyperAI