7日前

すべてのトークンが等しいわけではない：トークンクラスタリングTransformerを用いた人間中心の視覚分析

Wang Zeng, Sheng Jin, Wentao Liu, Chen Qian, Ping Luo, Wanli Ouyang, Xiaogang Wang

要約

ビジョントランスフォーマーは、多くのコンピュータビジョンタスクにおいて大きな成功を収めてきた。多くの既存手法は、画像を規則的で固定されたグリッドに分割し、各セルをトークンとして扱う方式を採用している。しかし、人間中心のビジョンタスクにおいては、すべての領域が同等に重要というわけではない。例えば、人体の表現には多くのトークンによる細かい記述が必要である一方で、背景領域は少数のトークンで十分にモデル化できる。この問題に対処するため、本研究では新しいビジョントランスフォーマー、すなわち「トークンクラスタリングトランスフォーマー（TCFormer）」を提案する。TCFormerは、逐次的なクラスタリングによってトークンを統合するアプローチを採用しており、異なる位置から、柔軟な形状とサイズでトークンを統合可能である。TCFormerにおけるトークンは、重要な領域に注目するだけでなく、意味的コンセプトに適した形状に調整でき、重要な詳細を含む領域に対しては細かい解像度を採用することができる。これにより、詳細な情報を効果的に捉えることが可能となる。広範な実験の結果、TCFormerはCOCO-WholeBodyにおける全身ポーズ推定や3DPWにおける3次元人体メッシュ再構成など、さまざまな挑戦的な人間中心タスクおよびデータセットにおいて、他の手法を一貫して上回ることが示された。コードは以下のGitHubリポジトリで公開されている：https://github.com/zengwang430521/TCFormer.git