8 个月前

多任务学习

计算机视觉

Ali Athar Alexander Hermans Jonathon Luiten Deva Ramanan Bastian Leibe

摘要

当前，视频分割领域被细分为多个涉及不同基准的任务。尽管在最先进技术方面取得了快速进展，但现有的方法大多具有特定任务性，无法在概念上推广到其他任务。受最近多任务能力方法的启发，我们提出了一种新的统一网络架构——TarViS，该架构可以应用于任何需要在视频中分割一组任意定义的“目标”的任务。我们的方法对任务如何定义这些目标具有灵活性，因为它将后者建模为抽象的“查询”，然后用于预测像素级的目标掩码。单个TarViS模型可以在涵盖不同任务的数据集集合上进行联合训练，并且在推理过程中无需任何特定任务的再训练即可在不同任务之间切换。为了证明其有效性，我们将TarViS应用于四个不同的任务：视频实例分割（VIS）、视频全景分割（VPS）、视频对象分割（VOS）和点示例引导跟踪（PET）。我们的统一且联合训练的模型在这四个任务所涵盖的7个基准中的5个上达到了最先进水平，在其余两个基准上也表现出竞争力。代码和模型权重可从以下链接获取：https://github.com/Ali2500/TarViS

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

多任务学习

计算机视觉

Ali Athar Alexander Hermans Jonathon Luiten Deva Ramanan Bastian Leibe

摘要

当前，视频分割领域被细分为多个涉及不同基准的任务。尽管在最先进技术方面取得了快速进展，但现有的方法大多具有特定任务性，无法在概念上推广到其他任务。受最近多任务能力方法的启发，我们提出了一种新的统一网络架构——TarViS，该架构可以应用于任何需要在视频中分割一组任意定义的“目标”的任务。我们的方法对任务如何定义这些目标具有灵活性，因为它将后者建模为抽象的“查询”，然后用于预测像素级的目标掩码。单个TarViS模型可以在涵盖不同任务的数据集集合上进行联合训练，并且在推理过程中无需任何特定任务的再训练即可在不同任务之间切换。为了证明其有效性，我们将TarViS应用于四个不同的任务：视频实例分割（VIS）、视频全景分割（VPS）、视频对象分割（VOS）和点示例引导跟踪（PET）。我们的统一且联合训练的模型在这四个任务所涵盖的7个基准中的5个上达到了最先进水平，在其余两个基准上也表现出竞争力。代码和模型权重可从以下链接获取：https://github.com/Ali2500/TarViS

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

TarViS：一种统一的目标视频分割方法 | 论文 | HyperAI超神经