6 个月前

计算机视觉

多任务学习

计算机视觉

Wang Zeng Sheng Jin Wentao Liu Chen Qian Ping Luo Wanli Ouyang Xiaogang Wang

摘要

视觉Transformer在众多计算机视觉任务中取得了显著成功。现有大多数方法通过将图像划分为规则且固定的网格来生成视觉token，将每个网格单元视为一个token。然而，在以人类为中心的视觉任务中，并非所有图像区域都具有同等重要性：例如，人体部位需要高分辨率的精细表示（即较多的token），而图像背景则可用少量token进行建模。为解决这一问题，本文提出一种新型视觉Transformer——Token Clustering Transformer（TCFormer），该模型通过逐步聚类的方式合并token，允许来自不同位置的token以灵活的形状和大小进行聚合。TCFormer中的token不仅能聚焦于关键区域，还能自适应调整其形状以匹配语义概念，并在包含关键细节的区域采用更高分辨率，从而更有效地捕捉细节信息。大量实验表明，TCFormer在多个具有挑战性的以人为核心的视觉任务和数据集上均持续优于现有方法，包括COCO-WholeBody数据集上的全身姿态估计任务以及3DPW数据集上的3D人体网格重建任务。代码已开源，地址为：https://github.com/zengwang430521/TCFormer.git

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

多任务学习

计算机视觉

Wang Zeng Sheng Jin Wentao Liu Chen Qian Ping Luo Wanli Ouyang Xiaogang Wang

摘要

视觉Transformer在众多计算机视觉任务中取得了显著成功。现有大多数方法通过将图像划分为规则且固定的网格来生成视觉token，将每个网格单元视为一个token。然而，在以人类为中心的视觉任务中，并非所有图像区域都具有同等重要性：例如，人体部位需要高分辨率的精细表示（即较多的token），而图像背景则可用少量token进行建模。为解决这一问题，本文提出一种新型视觉Transformer——Token Clustering Transformer（TCFormer），该模型通过逐步聚类的方式合并token，允许来自不同位置的token以灵活的形状和大小进行聚合。TCFormer中的token不仅能聚焦于关键区域，还能自适应调整其形状以匹配语义概念，并在包含关键细节的区域采用更高分辨率，从而更有效地捕捉细节信息。大量实验表明，TCFormer在多个具有挑战性的以人为核心的视觉任务和数据集上均持续优于现有方法，包括COCO-WholeBody数据集上的全身姿态估计任务以及3DPW数据集上的3D人体网格重建任务。代码已开源，地址为：https://github.com/zengwang430521/TCFormer.git

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供