8 个月前

摘要

人类是视觉识别任务中最基本的类别之一，如检测、分割和姿态估计。尽管在各个任务上已经投入了大量努力，但针对这三项任务的多任务学习研究却相对较少。本文中，我们探索了一种紧凑的多任务网络架构，通过以对象为中心的学习最大限度地共享多个任务的参数。为此，我们提出了一种新颖的查询设计，能够有效编码人类实例信息，称为以人为中心的查询（HCQ）。HCQ使得查询能够学习到人类显式和结构化的信息，例如关键点。此外，我们在目标任务的预测头中直接利用HCQ，并将其与Transformer解码器中的可变形注意力机制交织在一起，以充分利用已学习的对象中心表示。实验结果表明，所提出的多任务网络在人体检测、分割和姿态估计任务中达到了与当前最先进的任务专用模型相当的精度，同时计算成本更低。

源 PDF