6 个月前

多任务学习

计算机视觉

Philippe Weinzaepfel Thomas Lucas Vincent Leroy Yohann Cabon Vaibhav Arora Romain Brégier Gabriela Csurka Leonid Antsfeld Boris Chidlovskii Jérôme Revaud

摘要

尽管自监督预训练方法在高层下游任务中表现出色，但在密集几何视觉任务（如立体匹配或光流估计）方面尚未充分实现其潜力。将自监督学习范式（如实例判别或掩码图像建模）应用于几何任务，目前仍是活跃的研究方向。本文基于近期提出的跨视角补全框架——一种基于掩码图像建模的变体，该框架利用同一场景的第二视角图像，因而特别适用于双目下游任务。然而，该方法的适用性至今仍受到至少两个方面的限制：（a）真实世界图像对的采集难度较大，实践中仅使用了合成数据；（b）标准视觉Transformer在密集下游任务中泛化能力有限，因其对绝对位置的依赖较强，而此类任务中相对位置信息更具意义。为此，本文探索了三个改进方向。首先，我们提出一种大规模采集高质量真实世界图像对的方法。其次，我们尝试引入相对位置嵌入（relative positional embeddings），并实验证明其可显著提升视觉Transformer在密集几何任务中的表现。第三，我们通过利用海量数据，对基于视觉Transformer的跨视角补全过程架构进行了规模化扩展。借助上述改进，我们首次在立体匹配与光流估计任务上实现了当前最优性能，且无需依赖传统任务特定技术，如相关体积（correlation volume）、迭代估计、图像扭曲（image warping）或多尺度推理。这一成果为构建通用视觉模型开辟了新路径。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

多任务学习

计算机视觉

Philippe Weinzaepfel Thomas Lucas Vincent Leroy Yohann Cabon Vaibhav Arora Romain Brégier Gabriela Csurka Leonid Antsfeld Boris Chidlovskii Jérôme Revaud

摘要

尽管自监督预训练方法在高层下游任务中表现出色，但在密集几何视觉任务（如立体匹配或光流估计）方面尚未充分实现其潜力。将自监督学习范式（如实例判别或掩码图像建模）应用于几何任务，目前仍是活跃的研究方向。本文基于近期提出的跨视角补全框架——一种基于掩码图像建模的变体，该框架利用同一场景的第二视角图像，因而特别适用于双目下游任务。然而，该方法的适用性至今仍受到至少两个方面的限制：（a）真实世界图像对的采集难度较大，实践中仅使用了合成数据；（b）标准视觉Transformer在密集下游任务中泛化能力有限，因其对绝对位置的依赖较强，而此类任务中相对位置信息更具意义。为此，本文探索了三个改进方向。首先，我们提出一种大规模采集高质量真实世界图像对的方法。其次，我们尝试引入相对位置嵌入（relative positional embeddings），并实验证明其可显著提升视觉Transformer在密集几何任务中的表现。第三，我们通过利用海量数据，对基于视觉Transformer的跨视角补全过程架构进行了规模化扩展。借助上述改进，我们首次在立体匹配与光流估计任务上实现了当前最优性能，且无需依赖传统任务特定技术，如相关体积（correlation volume）、迭代估计、图像扭曲（image warping）或多尺度推理。这一成果为构建通用视觉模型开辟了新路径。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供