6 个月前

计算机视觉

多任务学习

卷积神经网络

计算机视觉

Christian Micheloni Niki Martinel Gian Luca Foresti

摘要

在行人重识别（Person Re-Identification, Re-ID）任务中，学习具有判别性、视角不变性以及多尺度表征能力、涵盖不同语义层次的行人外观特征，具有至关重要的意义。近年来，研究社区投入大量精力，致力于构建能够捕捉全局单一语义层次特征的深度Re-ID模型。为进一步提升性能，研究者引入了额外的视觉属性信息以及基于身体部位驱动的建模方法。然而，这些方法通常依赖大量人工标注，或需要额外的计算开销。我们认为，一种受金字塔结构启发、能够有效捕捉多尺度信息的方法，有望克服上述限制。具体而言，本文提出一种新颖的网络架构，将行人图像中表征视觉信息的多尺度条带（multi-scale stripes）分解为多个语义层次上的潜在判别性因子。同时，结合多任务损失函数与课程学习（curriculum learning）策略，训练出具有判别性和视角不变性的行人表征，并用于三元组相似性学习。在三个主流Re-ID基准数据集上的实验结果表明，该方法显著优于现有方法（例如，在Duke-MTMC数据集上准确率超过90%）。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

多任务学习

卷积神经网络

计算机视觉

Christian Micheloni Niki Martinel Gian Luca Foresti

摘要

在行人重识别（Person Re-Identification, Re-ID）任务中，学习具有判别性、视角不变性以及多尺度表征能力、涵盖不同语义层次的行人外观特征，具有至关重要的意义。近年来，研究社区投入大量精力，致力于构建能够捕捉全局单一语义层次特征的深度Re-ID模型。为进一步提升性能，研究者引入了额外的视觉属性信息以及基于身体部位驱动的建模方法。然而，这些方法通常依赖大量人工标注，或需要额外的计算开销。我们认为，一种受金字塔结构启发、能够有效捕捉多尺度信息的方法，有望克服上述限制。具体而言，本文提出一种新颖的网络架构，将行人图像中表征视觉信息的多尺度条带（multi-scale stripes）分解为多个语义层次上的潜在判别性因子。同时，结合多任务损失函数与课程学习（curriculum learning）策略，训练出具有判别性和视角不变性的行人表征，并用于三元组相似性学习。在三个主流Re-ID基准数据集上的实验结果表明，该方法显著优于现有方法（例如，在Duke-MTMC数据集上准确率超过90%）。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供