HyperAIHyperAI

Command Palette

Search for a command to run...

すべてのトークンが等しいわけではない:トークンクラスタリングTransformerを用いた人間中心の視覚分析

Wang Zeng Sheng Jin Wentao Liu Chen Qian Ping Luo Wanli Ouyang Xiaogang Wang

概要

ビジョントランスフォーマーは、多くのコンピュータビジョンタスクにおいて大きな成功を収めてきた。多くの既存手法は、画像を規則的で固定されたグリッドに分割し、各セルをトークンとして扱う方式を採用している。しかし、人間中心のビジョンタスクにおいては、すべての領域が同等に重要というわけではない。例えば、人体の表現には多くのトークンによる細かい記述が必要である一方で、背景領域は少数のトークンで十分にモデル化できる。この問題に対処するため、本研究では新しいビジョントランスフォーマー、すなわち「トークンクラスタリングトランスフォーマー(TCFormer)」を提案する。TCFormerは、逐次的なクラスタリングによってトークンを統合するアプローチを採用しており、異なる位置から、柔軟な形状とサイズでトークンを統合可能である。TCFormerにおけるトークンは、重要な領域に注目するだけでなく、意味的コンセプトに適した形状に調整でき、重要な詳細を含む領域に対しては細かい解像度を採用することができる。これにより、詳細な情報を効果的に捉えることが可能となる。広範な実験の結果、TCFormerはCOCO-WholeBodyにおける全身ポーズ推定や3DPWにおける3次元人体メッシュ再構成など、さまざまな挑戦的な人間中心タスクおよびデータセットにおいて、他の手法を一貫して上回ることが示された。コードは以下のGitHubリポジトリで公開されている:https://github.com/zengwang430521/TCFormer.git


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
すべてのトークンが等しいわけではない:トークンクラスタリングTransformerを用いた人間中心の視覚分析 | 記事 | HyperAI超神経