7 个月前

计算机视觉

多模态表征

计算机视觉

Philip Bachman R Devon Hjelm William Buchwalter

摘要

我们提出了一种基于最大化从共享上下文中提取的多个视图特征之间的互信息的自监督表示学习方法。例如，可以通过从不同位置（如场景内的不同摄像机位置）观察局部时空上下文来生成其多个视图，并通过不同的模态（如触觉、听觉或视觉）进行观察。或者，可以对ImageNet图像应用数据增强技术多次，从而从中生成多个视图。最大化这些视图特征之间的互信息需要捕捉那些影响跨越多个视图的高层次因素的信息——例如，某些对象的存在或某些事件的发生。根据我们提出的这种方法，我们开发了一个模型，该模型在我们考虑的任务中显著优于先前的方法。特别是，使用自监督学习，我们的模型在ImageNet上通过标准线性评估达到了68.1%的准确率。这一结果比之前的结果高出超过12%，比同期结果高出7%。当我们扩展模型以使用基于混合的表示时，分割行为作为自然的副产品出现。我们的代码已在线公开：https://github.com/Philip-Bachman/amdim-public。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

7 个月前

计算机视觉

多模态表征

计算机视觉

Philip Bachman R Devon Hjelm William Buchwalter

摘要

我们提出了一种基于最大化从共享上下文中提取的多个视图特征之间的互信息的自监督表示学习方法。例如，可以通过从不同位置（如场景内的不同摄像机位置）观察局部时空上下文来生成其多个视图，并通过不同的模态（如触觉、听觉或视觉）进行观察。或者，可以对ImageNet图像应用数据增强技术多次，从而从中生成多个视图。最大化这些视图特征之间的互信息需要捕捉那些影响跨越多个视图的高层次因素的信息——例如，某些对象的存在或某些事件的发生。根据我们提出的这种方法，我们开发了一个模型，该模型在我们考虑的任务中显著优于先前的方法。特别是，使用自监督学习，我们的模型在ImageNet上通过标准线性评估达到了68.1%的准确率。这一结果比之前的结果高出超过12%，比同期结果高出7%。当我们扩展模型以使用基于混合的表示时，分割行为作为自然的副产品出现。我们的代码已在线公开：https://github.com/Philip-Bachman/amdim-public。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供