8 个月前

多任务学习

计算机视觉

计算机视觉

Haofei Xu Jing Zhang Jianfei Cai, Fellow, IEEE Hamid Rezatofighi Fisher Yu Dacheng Tao, Fellow, IEEE Andreas Geiger

摘要

我们提出了一种统一的公式和模型，用于解决三个运动和3D感知任务：光流、校正立体匹配以及非校正立体图像的深度估计。与以往针对每个特定任务的专门架构不同，我们将所有这三个任务表述为一个统一的密集对应匹配问题，可以通过直接比较特征相似性来解决。这种表述需要具有判别性的特征表示，我们通过使用Transformer（特别是交叉注意力机制）来实现这一点。我们展示了交叉注意力机制能够通过跨视图交互整合另一幅图像的知识，从而显著提高提取特征的质量。我们的统一模型自然支持跨任务迁移学习，因为模型架构和参数在各个任务之间是共享的。在具有挑战性的Sintel数据集上，我们的统一模型优于RAFT；而最终模型通过添加一些额外的任务特定优化步骤，在10个流行的光流、立体匹配和深度估计数据集上的表现优于或可与最近的先进方法相媲美，同时在模型设计和推理速度方面更为简洁高效。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

多任务学习

计算机视觉

计算机视觉

Haofei Xu Jing Zhang Jianfei Cai, Fellow, IEEE Hamid Rezatofighi Fisher Yu Dacheng Tao, Fellow, IEEE Andreas Geiger

摘要

我们提出了一种统一的公式和模型，用于解决三个运动和3D感知任务：光流、校正立体匹配以及非校正立体图像的深度估计。与以往针对每个特定任务的专门架构不同，我们将所有这三个任务表述为一个统一的密集对应匹配问题，可以通过直接比较特征相似性来解决。这种表述需要具有判别性的特征表示，我们通过使用Transformer（特别是交叉注意力机制）来实现这一点。我们展示了交叉注意力机制能够通过跨视图交互整合另一幅图像的知识，从而显著提高提取特征的质量。我们的统一模型自然支持跨任务迁移学习，因为模型架构和参数在各个任务之间是共享的。在具有挑战性的Sintel数据集上，我们的统一模型优于RAFT；而最终模型通过添加一些额外的任务特定优化步骤，在10个流行的光流、立体匹配和深度估计数据集上的表现优于或可与最近的先进方法相媲美，同时在模型设计和推理速度方面更为简洁高效。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供