6 个月前

计算机视觉

Miran Heo Sukjun Hwang Seoung Wug Oh Joon-Young Lee Seon Joo Kim

摘要

我们提出了一种全新的离线视频实例分割（Offline Video Instance Segmentation, VIS）范式，其核心假设是：显式的面向对象信息可作为理解整个视频序列上下文的强有力线索。为此，我们提出了VITA——一种基于现成的基于Transformer的图像实例分割模型构建的简洁结构。具体而言，我们利用图像目标检测器将特定于对象的上下文信息提炼为对象令牌（object tokens）。VITA通过在帧级别关联对象令牌来实现视频级别的理解，而无需依赖时空主干特征。通过有效利用压缩后的信息建立对象之间的关联关系，VITA在采用ResNet-50主干网络的情况下，在主流VIS基准上取得了当前最优性能：在YouTube-VIS 2019与2021数据集上分别达到49.8 AP和45.7 AP，在OVIS数据集上达到19.6 AP。此外，得益于其基于对象令牌的结构与主干特征解耦的特性，VITA展现出若干此前离线VIS方法尚未探索的实际优势——能够在单一GPU上处理长视频与高分辨率视频，并可冻结在图像域上训练好的帧级检测器。代码已开源，地址为：https://github.com/sukjunhwang/VITA。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

Miran Heo Sukjun Hwang Seoung Wug Oh Joon-Young Lee Seon Joo Kim

摘要

我们提出了一种全新的离线视频实例分割（Offline Video Instance Segmentation, VIS）范式，其核心假设是：显式的面向对象信息可作为理解整个视频序列上下文的强有力线索。为此，我们提出了VITA——一种基于现成的基于Transformer的图像实例分割模型构建的简洁结构。具体而言，我们利用图像目标检测器将特定于对象的上下文信息提炼为对象令牌（object tokens）。VITA通过在帧级别关联对象令牌来实现视频级别的理解，而无需依赖时空主干特征。通过有效利用压缩后的信息建立对象之间的关联关系，VITA在采用ResNet-50主干网络的情况下，在主流VIS基准上取得了当前最优性能：在YouTube-VIS 2019与2021数据集上分别达到49.8 AP和45.7 AP，在OVIS数据集上达到19.6 AP。此外，得益于其基于对象令牌的结构与主干特征解耦的特性，VITA展现出若干此前离线VIS方法尚未探索的实际优势——能够在单一GPU上处理长视频与高分辨率视频，并可冻结在图像域上训练好的帧级检测器。代码已开源，地址为：https://github.com/sukjunhwang/VITA。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供